論文の概要: Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment
- arxiv url: http://arxiv.org/abs/2512.09212v1
- Date: Wed, 10 Dec 2025 00:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.35272
- Title: Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment
- Title(参考訳): ミスアライメントのターゲット: 逆モデルに基づくLCMアライメントのための競合認識フレームワーク
- Authors: Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang, Xinru Liu,
- Abstract要約: 逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
本稿では,その微調整過程を知識統合の一形態として扱うことにより,このような不整合を識別・緩和する新たな枠組みについて検討する。
- 参考スコア(独自算出の注目度): 5.900494456937422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward-model-based fine-tuning is a central paradigm in aligning Large Language Models with human preferences. However, such approaches critically rely on the assumption that proxy reward models accurately reflect intended supervision, a condition often violated due to annotation noise, bias, or limited coverage. This misalignment can lead to undesirable behaviors, where models optimize for flawed signals rather than true human values. In this paper, we investigate a novel framework to identify and mitigate such misalignment by treating the fine-tuning process as a form of knowledge integration. We focus on detecting instances of proxy-policy conflicts, cases where the base model strongly disagrees with the proxy. We argue that such conflicts often signify areas of shared ignorance, where neither the policy nor the reward model possesses sufficient knowledge, making them especially susceptible to misalignment. To this end, we propose two complementary metrics for identifying these conflicts: a localized Proxy-Policy Alignment Conflict Score (PACS) and a global Kendall-Tau Distance measure. Building on this insight, we design an algorithm named Selective Human-in-the-loop Feedback via Conflict-Aware Sampling (SHF-CAS) that targets high-conflict QA pairs for additional feedback, refining both the reward model and policy efficiently. Experiments on two alignment tasks demonstrate that our approach enhances general alignment performance, even when trained with a biased proxy reward. Our work provides a new lens for interpreting alignment failures and offers a principled pathway for targeted refinement in LLM training.
- Abstract(参考訳): 逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
しかしながら、このようなアプローチは、プロキシ報酬モデルが意図した監督を正確に反映しているという仮定に批判的に依存する。
このミスアライメントは、モデルが真の人間の価値よりも欠陥のある信号に最適化する、望ましくない行動を引き起こす可能性がある。
本稿では,微調整過程を知識統合の一形態として扱うことにより,このような誤認識を識別・緩和する新しい枠組みについて検討する。
我々は、ベースモデルがプロキシに強く反対するケースにおいて、プロキシとポリティクスの競合のインスタンスを検出することに重点を置いている。
このような対立は、政策も報酬モデルも十分な知識を持っていないような共有無知の領域をしばしば意味していると我々は主張する。
そこで本研究では,これらの競合を特定するための相補的指標として,局所化されたプロキシ・ポリティアライメント・コンフリクトスコア(PACS)と,グローバルなケンダル・タウ距離尺度(Kendall-Tau Distance measure)を提案する。
この知見に基づいて、衝突認識サンプリング(SHF-CAS)による選択的ヒューマンインザループフィードバック(Selective Human-in-the-loop Feedback)というアルゴリズムを設計する。
2つのアライメントタスクの実験は、偏りのあるプロキシの報酬で訓練しても、我々のアプローチが一般的なアライメント性能を高めることを示した。
我々の研究は、アライメント障害を解釈するための新しいレンズを提供し、LLMトレーニングにおける目標改善のための原則化された経路を提供する。
関連論文リスト
- Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning [46.661195064495]
この研究は、強化学習トレーニングループ内の不整合を検出し、解決するためのエンドツーエンドのフレームワークを導入している。
我々のフレームワークは2つの中核となるコンフリクト検出率 (CDR) と信号浄化フレームワークであるDeconflicted Graph Rewards (DGR) を特徴としている。
実験により、我々のフレームワークは、強力なベースラインよりもトレーニングの安定性とモデル性能を大幅に改善することを確認した。
論文 参考訳(メタデータ) (2025-10-17T10:34:59Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。