論文の概要: Objective Decoupling in Social Reinforcement Learning: Recovering Ground Truth from Sycophantic Majorities
- arxiv url: http://arxiv.org/abs/2602.08092v1
- Date: Sun, 08 Feb 2026 19:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.978015
- Title: Objective Decoupling in Social Reinforcement Learning: Recovering Ground Truth from Sycophantic Majorities
- Title(参考訳): 社会強化学習における客観的デカップリング--シコファンの多数派からの真実の回収
- Authors: Majid Ghasemi, Mark Crowley,
- Abstract要約: 強化学習(Reinforcement Learning)のDogma 4は、評価者がサイコファン、怠け者、あるいは敵対的であるような社会環境では失敗することを示す。
本稿では、この問題を解決するために、疫学的ソースアライメント(ESA)を提案する。
ESAは、信号自体よりもフィードバックのソースを判断するために、スパース安全公理を利用する。
- 参考スコア(独自算出の注目度): 1.3428344011390776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary AI alignment strategies rely on a fragile premise: that human feedback, while noisy, remains a fundamentally truthful signal. In this paper, we identify this assumption as Dogma 4 of Reinforcement Learning (RL). We demonstrate that while this dogma holds in static environments, it fails in social settings where evaluators may be sycophantic, lazy, or adversarial. We prove that under Dogma 4, standard RL agents suffer from what we call Objective Decoupling, a structural failure mode where the agent's learned objective permanently separates from the latent ground truth, guaranteeing convergence to misalignment. To resolve this, we propose Epistemic Source Alignment (ESA). Unlike standard robust methods that rely on statistical consensus (trusting the majority), ESA utilizes sparse safety axioms to judge the source of the feedback rather than the signal itself. We prove that this "judging the judges" mechanism guarantees convergence to the true objective, even when a majority of evaluators are biased. Empirically, we show that while traditional consensus methods fail under majority collusion, our approach successfully recovers the optimal policy.
- Abstract(参考訳): 現代のAIアライメント戦略は脆弱な前提に依存している。
本稿では,この仮定を強化学習(RL)のDogma 4と同一視する。
このドグマは静的な環境で保持されるが、評価者がサイコファン、怠け者、あるいは敵対的であるような社会的環境では失敗する。
Dogma 4では、標準のRLエージェントがObjective Decouplingと呼ばれる構造的障害モードに悩まされ、エージェントが学習した目的が恒久的に潜伏した基底真理から切り離され、ミスアライメントへの収束が保証される。
そこで本稿では,ESA ( Epistemic Source Alignment) を提案する。
統計的なコンセンサスに依存する標準的な堅牢な手法とは違い、ESAは信号自体よりもフィードバックのソースを判断するために、わずかな安全公理を使用している。
この「審査員を判断する」メカニズムは、評価者の大多数が偏っている場合でも、真の目的に収束することを保証する。
実験により,従来のコンセンサス手法は多数決で失敗するが,本手法は最適方針の回復に成功していることを示す。
関連論文リスト
- Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards [20.896576101848655]
本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。
本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
論文 参考訳(メタデータ) (2026-01-22T03:15:57Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。