論文の概要: AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling
- arxiv url: http://arxiv.org/abs/2601.08097v1
- Date: Tue, 13 Jan 2026 00:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.991082
- Title: AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling
- Title(参考訳): AdaJudge: 逆モデリングのための適応型マルチパースペクティブ判断
- Authors: Yongliang Miao, Yangyang Liang, Mengnan Du,
- Abstract要約: AdaJudgeは、表現とアグリゲーションを共同で適応する統合フレームワークである。
AdaJudgeはまず、リファインメントブロックを通じて、バックボーン表現を差別指向の空間に洗練する。
その後、静的読み込みを動的にルーティングし、エビデンスを組み合わせた適応的なマルチビュープーリングモジュールに置き換える。
- 参考スコア(独自算出の注目度): 23.81351558826977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward modeling is essential for aligning large language models with human preferences, yet predominant architectures rely on a static pooling strategy to condense sequences into scalar scores. This paradigm, however, suffers from two key limitations: a static inductive bias that misaligns with task-dependent preference signals, and a representational mismatch, as the backbone is optimized for generation rather than fine-grained discrimination. To address this, we propose AdaJudge, a unified framework that jointly adapts representation and aggregation. AdaJudge first refines backbone representations into a discrimination-oriented space via gated refinement blocks. It then replaces the static readout with an adaptive multi-view pooling module that dynamically routes and combines evidence. Extensive experiments on RM-Bench and JudgeBench show that AdaJudge outperforms strong off-the-shelf reward models and traditional pooling baselines.
- Abstract(参考訳): 逆モデリングは、大きな言語モデルを人間の好みに合わせるのに不可欠であるが、主流のアーキテクチャは、シーケンスをスカラースコアに凝縮するための静的プーリング戦略に依存している。
しかし、このパラダイムには2つの重要な制限がある: タスク依存の優先信号と不一致の静的帰納バイアスと、バックボーンがきめ細かい識別ではなく生成に最適化されているため、表現ミスマッチである。
そこで我々は,表現と集約を協調的に適応する統合フレームワークであるAdaJudgeを提案する。
AdaJudgeは最初に、ゲートリファインメントブロックを通じて、バックボーン表現を差別指向の空間に洗練する。
その後、静的読み込みを動的にルーティングし、エビデンスを組み合わせた適応的なマルチビュープーリングモジュールに置き換える。
RM-Bench と JudgeBench の大規模な実験により、AdaJudge は既成の報酬モデルや従来のプールベースラインよりも優れていることが示された。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。