論文の概要: Aligning Deep Implicit Preferences by Learning to Reason Defensively
- arxiv url: http://arxiv.org/abs/2510.11194v1
- Date: Mon, 13 Oct 2025 09:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.295798
- Title: Aligning Deep Implicit Preferences by Learning to Reason Defensively
- Title(参考訳): ディフェンシブ推論学習による深い暗黙の選好の調整
- Authors: Peiming Li, Zhiyuan Hu, Yang Tang, Shiyu Li, Xi Chen,
- Abstract要約: 優先推論のギャップを埋めるために,批判駆動推論アライメント(CDRA)を提案する。
CDRAはスカラー報酬マッチングタスクから構造化推論プロセスにアライメントを再構成する。
実験により、CDRAは、堅牢な推論を実行しながら、ユーザの真の嗜好を発見し、整合するのに優れていることが示された。
- 参考スコア(独自算出の注目度): 22.548051297731416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users' deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response's alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users' true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.
- Abstract(参考訳): パーソナライズされたアライメントは、Large Language Models(LLM)がユーザ中心のインタラクションに効果的に関与できるようにするために不可欠である。
しかし、現在の手法では、ユーザの深い暗黙の好み(統計的目標、セマンティックコンテキスト、リスク許容など)を推測できず、現実の曖昧さをナビゲートするために必要な防御的理由が欠如している、という2つの課題に直面している。
この認知的ギャップは表面的、脆く、近視的な反応につながる。
これを解決するために、スカラー報酬マッチングタスクから構造化推論プロセスへのアライメントを再構成する、批判駆動推論アライメント(CDRA)を提案する。
まず、優先推論ギャップを埋めるために、DeepPrefベンチマークを導入する。
このデータセットは、20トピックにわたる3000の好みクエリーペアで構成され、クエリのセマンティクスを分解し、潜伏するリスクを明らかにするために、批判に注釈を付けた推論チェーンを生成する多面的認知協議会をシミュレートすることによって、キュレートされる。
次に,パーソナライズド・ジェネレーティブ・プロセス・リワード・モデル(Pers-GenPRM)を導入する。
この論理に基づいて最終スコアを出力する前に、ユーザの好みと応答の整合性を評価するための批判連鎖を生成する。
最終的に、この解釈可能な構造化された報酬信号は、数値と自然言語の両方のフィードバックを統合するプロセスレベルのオンライン強化学習アルゴリズムであるCritique-Driven Policy Alignmentを通じてポリシーモデルをガイドする。
実験により、CDRAは、堅牢な推論を実行しながら、ユーザの真の嗜好を発見し、整合するのに優れていることが示された。
私たちのコードとデータセットはhttps://github.com/Zephyrian-Hugh/Deep-pref.comで公開されています。
関連論文リスト
- A-IPO: Adaptive Intent-driven Preference Optimization [14.221471110333828]
underlinetextbfAdaptive textbfunderlineIntent-driven textbfunderlinePreference textbfunderlineOptimization (textbfA-IPO)を紹介する。
A-IPOは、各ユーザプロンプトの背後にある潜在意図を推論するインテントモジュールを導入し、この推論意図を報酬関数に明示的に組み込む。
論文 参考訳(メタデータ) (2025-10-11T07:29:11Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - FIRE: Faithful Interpretable Recommendation Explanations [2.6499018693213316]
推薦システムにおける自然言語の説明は、しばしばレビュー生成タスクとしてフレーム化される。
FireはSHAPベースの特徴属性と構造化されたプロンプト駆動言語生成を組み合わせた軽量で解釈可能なフレームワークである。
この結果から,FIREは競争推奨精度を達成するだけでなく,アライメント,構造,忠実度といった重要な次元に沿った説明品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-07T10:11:02Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。