論文の概要: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15514v2
- Date: Tue, 21 Oct 2025 03:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.621311
- Title: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- Title(参考訳): 裁判官に挑戦する - 安定した強化学習のためのAIフィードバックの分離
- Authors: Boyin Liu, Zhuo Zhang, Sen Huang, Lipeng Xie, Qingxu Fu, Haoran Chen, LI YU, Tianyi Hu, Zhaoyang Liu, Bolin Ding, Dongbin Zhao,
- Abstract要約: この研究は、強化学習トレーニングループ内の不整合を検出し、解決するためのエンドツーエンドのフレームワークを導入している。
我々のフレームワークは2つの中核となるコンフリクト検出率 (CDR) と信号浄化フレームワークであるDeconflicted Graph Rewards (DGR) を特徴としている。
実験により、我々のフレームワークは、強力なベースラインよりもトレーニングの安定性とモデル性能を大幅に改善することを確認した。
- 参考スコア(独自算出の注目度): 46.661195064495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligning language models using LLM judge feedback offers a scalable alternative to human annotation, yet is plagued by judgment inconsistencies that destabilize reinforcement learning. While prior work has focused on judge accuracy, the critical issue of logical coherence particularly preference cycles has been largely unaddressed. To address this gap, this work introduces an end to end framework to systematically detect and resolve these inconsistencies within the reinforcement learning training loop. Our framework features two core contributions: the Conflict Detection Rate (CDR), a novel metric to quantify judgment conflicts, and Deconflicted Graph Rewards (DGR), a signal-purification framework that eliminates cycles before policy optimization. DGR constructs preference graphs from raw judgments, transforms them into conflict-free Directed Acyclic Graphs (DAGs), and generates a logically coherent reward signal compatible with any policy optimizer. Experiments confirm that our framework significantly improves training stability and model performance over strong baselines, establishing logical consistency as a crucial and now-addressable dimension of AI feedback. The code for our method is available at https://github.com/modelscope/RM-Gallery.
- Abstract(参考訳): LLMの判断フィードバックを用いた言語モデルの調整は、人間のアノテーションに代わるスケーラブルな代替手段を提供するが、強化学習を不安定にする判断の不整合に悩まされている。
以前の研究は判断精度に焦点が当てられていたが、論理的コヒーレンス、特に選好サイクルの重大な問題は、ほとんど適用されていない。
このギャップに対処するため、この研究は、強化学習トレーニングループ内のこれらの不整合を系統的に検出し、解決するエンド・ツー・エンド・フレームワークを導入している。
我々のフレームワークは2つの中核となるコンフリクト検出率(CDR)と、ポリシー最適化前のサイクルを排除した信号浄化フレームワークであるDeconflicted Graph Rewards(DGR)を特徴としている。
DGRは、生の判断から選好グラフを構築し、それらを競合のない非巡回グラフ(DAG)に変換し、任意のポリシーオプティマイザと互換性のある論理的に一貫性のある報酬信号を生成する。
実験により、我々のフレームワークは、強力なベースラインよりもトレーニングの安定性とモデルパフォーマンスを大幅に改善し、論理的一貫性をAIフィードバックの重要かつ適応可能な次元として確立することを確認した。
私たちのメソッドのコードはhttps://github.com/modelscope/RM-Gallery.comで公開されています。
関連論文リスト
- R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning [21.237273221334963]
ECHOは、同期された共進化ループを通じてポリシーと批判を共同で最適化するフレームワークである。
ECHOは、より安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらす。
論文 参考訳(メタデータ) (2026-01-11T07:29:08Z) - Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment [5.900494456937422]
逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
本稿では,その微調整過程を知識統合の一形態として扱うことにより,このような不整合を識別・緩和する新たな枠組みについて検討する。
論文 参考訳(メタデータ) (2025-12-10T00:52:21Z) - Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces [12.630494786258842]
Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
論文 参考訳(メタデータ) (2025-11-28T15:34:36Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Robust Recommendation via Decision Boundary-aware Graph Contrastive Learning [25.514007761856632]
グラフコントラスト学習(GCL)は、データ間隔によるバイアスの低減効果により、レコメンデータシステムにおいて注目を集めている。
これらの手法は, 動的学習過程における意味的不変性と難易度とのバランスをとるのに苦慮していると論じる。
本稿では,モデル能力の進化に伴い,コントラッシブペアのセマンティック不変性を効果的に維持し,動的に適応する新しいGCLベースのレコメンデーションフレームワークRGCLを提案する。
論文 参考訳(メタデータ) (2024-07-14T13:03:35Z) - HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。