論文の概要: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15514v1
- Date: Fri, 17 Oct 2025 10:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.579479
- Title: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- Title(参考訳): 裁判官に挑戦する - 安定した強化学習のためのAIフィードバックの分離
- Authors: Boyin Liu, Zhuo Zhang, Sen Huang, Lipeng Xie, Qingxu Fu, Haoran Chen, LI YU, Tianyi Hu, Zhaoyang Liu, Bolin Ding, Dongbin Zhao,
- Abstract要約: 本稿では,強化学習訓練過程における不整合の検出と解決を目的とした包括的枠組みを提案する。
我々のフレームワークには2つの主要なコントリビューションが含まれている: 第一に、判定競合を定量化する新しい指標である衝突検出率(CDR)、第二に、政策最適化前のサイクルを除去して信号を浄化するフレームワークであるDeconflicted Graph Rewards(DGR)である。
- 参考スコア(独自算出の注目度): 46.661195064495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: However, this method often faces judgment inconsistencies that can destabilize reinforcement learning. While prior research has focused on the accuracy of judgments, the critical issue of logical coherence especially issues such as preference cycles hasn't been fully addressed. To fill this gap, we introduce a comprehensive framework designed to systematically detect and resolve these inconsistencies during the reinforcement learning training process. Our framework includes two main contributions: first, the Conflict Detection Rate (CDR), a new metric that quantifies judgment conflicts, and second, Deconflicted Graph Rewards (DGR), a framework that purifies signals by removing cycles before policy optimization. DGR constructs preference graphs from the initial judgments, transforms them into conflict-free Directed Acyclic Graphs (DAGs), and generates a logically coherent reward signal that is compatible with any policy optimizer. Experimental results show that our framework significantly enhances training stability and model performance compared to strong baselines, establishing logical consistency as a crucial and now manageable dimension of AI feedback.
- Abstract(参考訳): しかし、この手法は強化学習を不安定にできる判断の不整合に直面することが多い。
従来の研究では、判断の正確さに焦点が当てられていたが、論理的一貫性の重要な問題、特に選好サイクルのような問題は、完全には解決されていない。
このギャップを埋めるために,強化学習訓練過程において,これらの不整合を系統的に検出・解決するための包括的枠組みを導入する。
私たちのフレームワークには,2つの主要なコントリビューションが含まれている。第1に,判断競合を定量化する新たな指標である衝突検出率(CDR),第2にDeconflicted Graph Rewards(DGR)である。
DGRは、最初の判断から選好グラフを構築し、それらを競合のない非巡回グラフ(DAG)に変換し、任意のポリシーオプティマイザと互換性のある論理的に一貫性のある報酬信号を生成する。
実験の結果,我々のフレームワークは,強いベースラインに比べてトレーニングの安定性とモデル性能を著しく向上させ,AIフィードバックの重要かつ管理可能な次元として論理的整合性を確立した。
関連論文リスト
- Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Robust Recommendation via Decision Boundary-aware Graph Contrastive Learning [25.514007761856632]
グラフコントラスト学習(GCL)は、データ間隔によるバイアスの低減効果により、レコメンデータシステムにおいて注目を集めている。
これらの手法は, 動的学習過程における意味的不変性と難易度とのバランスをとるのに苦慮していると論じる。
本稿では,モデル能力の進化に伴い,コントラッシブペアのセマンティック不変性を効果的に維持し,動的に適応する新しいGCLベースのレコメンデーションフレームワークRGCLを提案する。
論文 参考訳(メタデータ) (2024-07-14T13:03:35Z) - HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。