論文の概要: Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis
- arxiv url: http://arxiv.org/abs/2602.00846v1
- Date: Sat, 31 Jan 2026 18:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.430224
- Title: Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis
- Title(参考訳): Omni-RRM:Omni Reward Modelingを改良したRubric-Grounded Preference Synthesis
- Authors: Zicheng Kong, Dehua Ma, Zhenbo Xu, Alven Yang, Yiwei Ru, Haoran Wang, Zixuan Zhou, Fuqing Bie, Liuyu Xiang, Huijia Wu, Jian Zhao, Zhaofeng He,
- Abstract要約: 重要なボトルネックは、効果的な報酬モデル(RM)の欠如である。
我々は,最初のオープンソースルーリックグラウンド報酬モデルである textbf Omni-RRM を紹介する。
テキスト、画像、ビデオ、オーディオにまたがって、次元的に正当化された構造化された多次元の選好判断を生成する。
- 参考スコア(独自算出の注目度): 22.55861092515539
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable capabilities, yet their performance is often capped by the coarse nature of existing alignment techniques. A critical bottleneck remains the lack of effective reward models (RMs): existing RMs are predominantly vision-centric, return opaque scalar scores, and rely on costly human annotations. We introduce \textbf{Omni-RRM}, the first open-source rubric-grounded reward model that produces structured, multi-dimension preference judgments with dimension-wise justifications across \textbf{text, image, video, and audio}. At the core of our approach is \textbf{Omni-Preference}, a large-scale dataset built via a fully automated pipeline: we synthesize candidate response pairs by contrasting models of different capabilities, and use strong teacher models to \emph{reconcile and filter} preferences while providing a modality-aware \emph{rubric-grounded rationale} for each pair. This eliminates the need for human-labeled training preferences. Omni-RRM is trained in two stages: supervised fine-tuning to learn the rubric-grounded outputs, followed by reinforcement learning (GRPO) to sharpen discrimination on difficult, low-contrast pairs. Comprehensive evaluations show that Omni-RRM achieves state-of-the-art accuracy on video (80.2\% on ShareGPT-V) and audio (66.8\% on Audio-HH-RLHF) benchmarks, and substantially outperforms existing open-source RMs on image tasks, with a 17.7\% absolute gain over its base model on overall accuracy. Omni-RRM also improves downstream performance via Best-of-$N$ selection and transfers to text-only preference benchmarks. Our data, code, and models are available at https://anonymous.4open.science/r/Omni-RRM-CC08.
- Abstract(参考訳): MLLM(Multimodal large language model)は目覚ましい能力を示しているが、その性能は既存のアライメント手法の粗い性質に支えられていることが多い。
既存のRMは視覚中心であり、不透明なスカラースコアを返す。
本稿では,構造化された複数次元の選好判断を生成できる最初のオープンソースルーリックグラウンド報酬モデルである \textbf{Omni-RRM} を紹介する。
完全自動化パイプラインによって構築された大規模データセットである \textbf{Omni-Preference} は、異なる能力のモデルと対比して、候補応答ペアを合成し、強い教師モデルを使用して、各ペアに対してモダリティを意識した \emph{rubric-grounded rationale を提供する。
これにより、人間ラベルのトレーニングの好みが不要になる。
Omni-RRMは2つの段階で訓練される: ルーリックグラウンドの出力を学習するために微調整を監督し、続いて強化学習(GRPO)を行い、困難で低コントラストのペアを識別する。
総合的な評価では、Omni-RRMはビデオ(ShareGPT-Vでは80.2\%)とオーディオ(Audio-HH-RLHFでは66.8\%)のベンチマークで最先端の精度を達成し、画像タスクでは既存のオープンソースRMよりも大幅に上回り、全体的な精度では17.7\%の精度でベースモデルよりも絶対的に向上している。
Omni-RRMはまた、Best-of-N$選択とテキストのみの選好ベンチマークへの転送を通じて、ダウンストリームのパフォーマンスを改善している。
我々のデータ、コード、モデルはhttps://anonymous.4open.science/r/Omni-RRM-CC08で利用可能です。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder [54.31950189922548]
リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。
Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。
SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-11T06:51:56Z) - Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences [38.99630864553283]
オムニ・リワード(Omni-Reward, Omni-Reward)は、自由形式の選好をサポートする汎用的なオムニ・モーダル報酬モデリングのためのステップである。
本研究では248Kの一般嗜好ペアと69Kの命令調整ペアからなるマルチモーダル選好データセットを構築し,汎用的オムニモーダルRMのトレーニングを行う。
Omni-RewardBenchと他の広く使われている報酬モデルベンチマークにおいて、識別的および生成的RMの両方を含み、高い性能を実現するOmni-RewardModelを提案する。
論文 参考訳(メタデータ) (2025-10-27T15:53:20Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [28.478879569025583]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。
最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。
第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文 参考訳(メタデータ) (2025-05-30T17:44:28Z) - SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner [35.843587407696006]
大規模ビジュアル言語モデル(LVLM)は信頼性を確保するために、ますます優先順位付けに依存している。
我々は、すでに豊富な教師付きテキストイメージペアを総合的な選好三脚に変換することができる自己教師型フレームワーク、Projectnameを提案する。
論文 参考訳(メタデータ) (2025-03-06T08:33:11Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。