論文の概要: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15514v2
- Date: Tue, 21 Oct 2025 03:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.621311
- Title: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- Title(参考訳): 裁判官に挑戦する - 安定した強化学習のためのAIフィードバックの分離
- Authors: Boyin Liu, Zhuo Zhang, Sen Huang, Lipeng Xie, Qingxu Fu, Haoran Chen, LI YU, Tianyi Hu, Zhaoyang Liu, Bolin Ding, Dongbin Zhao,
- Abstract要約: この研究は、強化学習トレーニングループ内の不整合を検出し、解決するためのエンドツーエンドのフレームワークを導入している。
我々のフレームワークは2つの中核となるコンフリクト検出率 (CDR) と信号浄化フレームワークであるDeconflicted Graph Rewards (DGR) を特徴としている。
実験により、我々のフレームワークは、強力なベースラインよりもトレーニングの安定性とモデル性能を大幅に改善することを確認した。
- 参考スコア(独自算出の注目度): 46.661195064495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligning language models using LLM judge feedback offers a scalable alternative to human annotation, yet is plagued by judgment inconsistencies that destabilize reinforcement learning. While prior work has focused on judge accuracy, the critical issue of logical coherence particularly preference cycles has been largely unaddressed. To address this gap, this work introduces an end to end framework to systematically detect and resolve these inconsistencies within the reinforcement learning training loop. Our framework features two core contributions: the Conflict Detection Rate (CDR), a novel metric to quantify judgment conflicts, and Deconflicted Graph Rewards (DGR), a signal-purification framework that eliminates cycles before policy optimization. DGR constructs preference graphs from raw judgments, transforms them into conflict-free Directed Acyclic Graphs (DAGs), and generates a logically coherent reward signal compatible with any policy optimizer. Experiments confirm that our framework significantly improves training stability and model performance over strong baselines, establishing logical consistency as a crucial and now-addressable dimension of AI feedback. The code for our method is available at https://github.com/modelscope/RM-Gallery.
- Abstract(参考訳): LLMの判断フィードバックを用いた言語モデルの調整は、人間のアノテーションに代わるスケーラブルな代替手段を提供するが、強化学習を不安定にする判断の不整合に悩まされている。
以前の研究は判断精度に焦点が当てられていたが、論理的コヒーレンス、特に選好サイクルの重大な問題は、ほとんど適用されていない。
このギャップに対処するため、この研究は、強化学習トレーニングループ内のこれらの不整合を系統的に検出し、解決するエンド・ツー・エンド・フレームワークを導入している。
我々のフレームワークは2つの中核となるコンフリクト検出率(CDR)と、ポリシー最適化前のサイクルを排除した信号浄化フレームワークであるDeconflicted Graph Rewards(DGR)を特徴としている。
DGRは、生の判断から選好グラフを構築し、それらを競合のない非巡回グラフ(DAG)に変換し、任意のポリシーオプティマイザと互換性のある論理的に一貫性のある報酬信号を生成する。
実験により、我々のフレームワークは、強力なベースラインよりもトレーニングの安定性とモデルパフォーマンスを大幅に改善し、論理的一貫性をAIフィードバックの重要かつ適応可能な次元として確立することを確認した。
私たちのメソッドのコードはhttps://github.com/modelscope/RM-Gallery.comで公開されています。
関連論文リスト
- Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Robust Recommendation via Decision Boundary-aware Graph Contrastive Learning [25.514007761856632]
グラフコントラスト学習(GCL)は、データ間隔によるバイアスの低減効果により、レコメンデータシステムにおいて注目を集めている。
これらの手法は, 動的学習過程における意味的不変性と難易度とのバランスをとるのに苦慮していると論じる。
本稿では,モデル能力の進化に伴い,コントラッシブペアのセマンティック不変性を効果的に維持し,動的に適応する新しいGCLベースのレコメンデーションフレームワークRGCLを提案する。
論文 参考訳(メタデータ) (2024-07-14T13:03:35Z) - HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。