論文の概要: Explainable reinforcement learning from human feedback to improve alignment
- arxiv url: http://arxiv.org/abs/2512.13837v1
- Date: Mon, 15 Dec 2025 19:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.464073
- Title: Explainable reinforcement learning from human feedback to improve alignment
- Title(参考訳): 人間のフィードバックから説明可能な強化学習によるアライメント改善
- Authors: Shicheng Liu, Siyuan Xu, Wenjie Qiu, Hangfan Zhang, Minghui Zhu,
- Abstract要約: 人的フィードバックから強化学習を改善するために,この人的改善戦略が適用できるかどうかを検討する。
特に、RLHFによって調整されたLMは未だに不満足な応答を出力できるという文献で観察されている。
本稿では,原因を正すことで不満足な応答を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 33.905626357906414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common and effective strategy for humans to improve an unsatisfactory outcome in daily life is to find a cause of this outcome and correct the cause. In this paper, we investigate whether this human improvement strategy can be applied to improving reinforcement learning from human feedback (RLHF) for alignment of language models (LMs). In particular, it is observed in the literature that LMs tuned by RLHF can still output unsatisfactory responses. This paper proposes a method to improve the unsatisfactory responses by correcting their causes. Our method has two parts. The first part proposes a post-hoc explanation method to explain why an unsatisfactory response is generated to a prompt by identifying the training data that lead to this response. We formulate this problem as a constrained combinatorial optimization problem where the objective is to find a set of training data closest to this prompt-response pair in a feature representation space, and the constraint is that the prompt-response pair can be decomposed as a convex combination of this set of training data in the feature space. We propose an efficient iterative data selection algorithm to solve this problem. The second part proposes an unlearning method that improves unsatisfactory responses to some prompts by unlearning the training data that lead to these unsatisfactory responses and, meanwhile, does not significantly degrade satisfactory responses to other prompts. Experimental results demonstrate that our algorithm can improve RLHF.
- Abstract(参考訳): 日常生活における不満足な結果を改善するための一般的な効果的な戦略は、この結果の原因を見つけ、原因を正すことである。
本稿では,言語モデル(LM)のアライメントのための人間フィードバック(RLHF)からの強化学習に,この人的改善戦略が適用できるかどうかを検討する。
特に、RLHFによって調整されたLMは未だに不満足な応答を出力できるという文献で観察されている。
本稿では,原因を正すことで不満足な応答を改善する手法を提案する。
私たちの方法には2つの部分があります。
第1部では、この応答につながるトレーニングデータを特定して、なぜ不満足な応答がプロンプトに発生するのかを説明する、ポストホックな説明法を提案する。
我々は,この問題を特徴表現空間において,この迅速な応答対に最も近い訓練データの集合を見つけることを目的とした制約付き組合せ最適化問題として定式化し,その制約は,特徴空間におけるこの訓練データの集合の凸結合として,応答対を分解できるということである。
この問題を解決するために,効率的な反復データ選択アルゴリズムを提案する。
第2部では、これらの不満足な応答につながるトレーニングデータをアンラーニングすることで、一部のプロンプトに対する不満足な応答を改善するアンラーニング手法を提案し、他方、他のプロンプトに対する満足な応答を著しく低下させない。
実験の結果,提案アルゴリズムはRLHFを改良できることが示された。
関連論文リスト
- REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。
実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。
異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。