論文の概要: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15514v1
- Date: Fri, 17 Oct 2025 10:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.579479
- Title: Taming the Judge: Deconflicting AI Feedback for Stable Reinforcement Learning
- Title(参考訳): 裁判官に挑戦する - 安定した強化学習のためのAIフィードバックの分離
- Authors: Boyin Liu, Zhuo Zhang, Sen Huang, Lipeng Xie, Qingxu Fu, Haoran Chen, LI YU, Tianyi Hu, Zhaoyang Liu, Bolin Ding, Dongbin Zhao,
- Abstract要約: 本稿では,強化学習訓練過程における不整合の検出と解決を目的とした包括的枠組みを提案する。
我々のフレームワークには2つの主要なコントリビューションが含まれている: 第一に、判定競合を定量化する新しい指標である衝突検出率(CDR)、第二に、政策最適化前のサイクルを除去して信号を浄化するフレームワークであるDeconflicted Graph Rewards(DGR)である。
- 参考スコア(独自算出の注目度): 46.661195064495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: However, this method often faces judgment inconsistencies that can destabilize reinforcement learning. While prior research has focused on the accuracy of judgments, the critical issue of logical coherence especially issues such as preference cycles hasn't been fully addressed. To fill this gap, we introduce a comprehensive framework designed to systematically detect and resolve these inconsistencies during the reinforcement learning training process. Our framework includes two main contributions: first, the Conflict Detection Rate (CDR), a new metric that quantifies judgment conflicts, and second, Deconflicted Graph Rewards (DGR), a framework that purifies signals by removing cycles before policy optimization. DGR constructs preference graphs from the initial judgments, transforms them into conflict-free Directed Acyclic Graphs (DAGs), and generates a logically coherent reward signal that is compatible with any policy optimizer. Experimental results show that our framework significantly enhances training stability and model performance compared to strong baselines, establishing logical consistency as a crucial and now manageable dimension of AI feedback.
- Abstract(参考訳): しかし、この手法は強化学習を不安定にできる判断の不整合に直面することが多い。
従来の研究では、判断の正確さに焦点が当てられていたが、論理的一貫性の重要な問題、特に選好サイクルのような問題は、完全には解決されていない。
このギャップを埋めるために,強化学習訓練過程において,これらの不整合を系統的に検出・解決するための包括的枠組みを導入する。
私たちのフレームワークには,2つの主要なコントリビューションが含まれている。第1に,判断競合を定量化する新たな指標である衝突検出率(CDR),第2にDeconflicted Graph Rewards(DGR)である。
DGRは、最初の判断から選好グラフを構築し、それらを競合のない非巡回グラフ(DAG)に変換し、任意のポリシーオプティマイザと互換性のある論理的に一貫性のある報酬信号を生成する。
実験の結果,我々のフレームワークは,強いベースラインに比べてトレーニングの安定性とモデル性能を著しく向上させ,AIフィードバックの重要かつ管理可能な次元として論理的整合性を確立した。
関連論文リスト
- R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning [21.237273221334963]
ECHOは、同期された共進化ループを通じてポリシーと批判を共同で最適化するフレームワークである。
ECHOは、より安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらす。
論文 参考訳(メタデータ) (2026-01-11T07:29:08Z) - Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment [5.900494456937422]
逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
本稿では,その微調整過程を知識統合の一形態として扱うことにより,このような不整合を識別・緩和する新たな枠組みについて検討する。
論文 参考訳(メタデータ) (2025-12-10T00:52:21Z) - Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces [12.630494786258842]
Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
論文 参考訳(メタデータ) (2025-11-28T15:34:36Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Robust Recommendation via Decision Boundary-aware Graph Contrastive Learning [25.514007761856632]
グラフコントラスト学習(GCL)は、データ間隔によるバイアスの低減効果により、レコメンデータシステムにおいて注目を集めている。
これらの手法は, 動的学習過程における意味的不変性と難易度とのバランスをとるのに苦慮していると論じる。
本稿では,モデル能力の進化に伴い,コントラッシブペアのセマンティック不変性を効果的に維持し,動的に適応する新しいGCLベースのレコメンデーションフレームワークRGCLを提案する。
論文 参考訳(メタデータ) (2024-07-14T13:03:35Z) - HC-Ref: Hierarchical Constrained Refinement for Robust Adversarial
Training of GNNs [7.635985143883581]
コンピュータビジョンにおける敵の攻撃に対する最も効果的な防御機構の1つとされる敵の訓練は、GNNの堅牢性を高めるという大きな約束を持っている。
本稿では,GNNと下流分類器の対摂動性を高める階層的制約改善フレームワーク(HC-Ref)を提案する。
論文 参考訳(メタデータ) (2023-12-08T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。