論文の概要: Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL
- arxiv url: http://arxiv.org/abs/2510.06092v1
- Date: Tue, 07 Oct 2025 16:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.349138
- Title: Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL
- Title(参考訳): 失敗から学ぶ:失敗を意識した逆RLによるLLMアライメント理解
- Authors: Nyal Patel, Matthieu Bou, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせる。
Inverse Reinforcement Learning (IRL) を用いた既存手法による遅延インセンティブ抽出の試み
本稿では,モデル動作を定義する潜在報酬を復元するために,誤分類や難解な例に着目した新しいEmphfailure-aware IRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.030821324147515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) aligns Large Language Models (LLMs) with human preferences, yet the underlying reward signals they internalize remain hidden, posing a critical challenge for interpretability and safety. Existing approaches attempt to extract these latent incentives using Inverse Reinforcement Learning (IRL), but treat all preference pairs equally, often overlooking the most informative signals: those examples the extracted reward model misclassifies or assigns nearly equal scores, which we term \emph{failures}. We introduce a novel \emph{failure-aware} IRL algorithm that focuses on misclassified or difficult examples to recover the latent rewards defining model behaviors. By learning from these failures, our failure-aware IRL extracts reward functions that better reflect the true objectives behind RLHF. We demonstrate that failure-aware IRL outperforms existing IRL baselines across multiple metrics when applied to LLM detoxification, without requiring external classifiers or supervision. Crucially, failure-aware IRL yields rewards that better capture the true incentives learned during RLHF, enabling more effective re-RLHF training than standard IRL. This establishes failure-aware IRL as a robust, scalable method for auditing model alignment and reducing ambiguity in the IRL process.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の嗜好と整合させるが、その根底にある報酬信号は隠蔽され、解釈可能性と安全性にとって重要な課題となっている。
既存のアプローチは、逆強化学習(IRL)を用いてこれらの潜伏インセンティブを抽出しようとするが、全ての選好ペアを平等に扱い、最も有益な信号を見落としている。
本稿では,モデル動作を定義する潜在報酬を復元するために,誤分類や難解な例に着目した新しいIRLアルゴリズムを提案する。
これらの失敗から学習することで、我々の失敗を意識したIRLは、RLHFの背後にある真の目的を反映した報酬関数を抽出する。
障害対応IRLは、外部分類器や監督を必要とせず、LCMデトキシ化に適用した場合、既存のIRLベースラインよりも優れた性能を示すことを示す。
重要なことに、失敗を意識したIRLは、RLHFで学んだ真のインセンティブをよりよく捉え、通常のIRLよりも効果的な再RLHFトレーニングを可能にします。
これにより、IRLプロセスにおけるモデルアライメントの監査とあいまいさの低減のための堅牢でスケーラブルな方法として、障害対応IRLが確立される。
関連論文リスト
- ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Linear Probe Penalties Reduce LLM Sycophancy [3.6490659260835234]
大規模言語モデル(LLM)は、しばしばサイコファンであり、正確または客観的なステートメントよりもユーザとの合意を優先する。
ヒトフィードバック(RLHF)からの強化学習において、この問題行動はより顕著になる
本研究では,報酬モデル内でサイコファンシーのマーカーを識別し,ペナルティ化する線形探索法を開発し,サイコファンの行動を妨げる報酬を生成する。
論文 参考訳(メタデータ) (2024-12-01T21:11:28Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。