論文の概要: Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
- arxiv url: http://arxiv.org/abs/2510.23451v1
- Date: Mon, 27 Oct 2025 15:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.598748
- Title: Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
- Title(参考訳): Omni-Reward:自由形式推論を用いた汎用Omni-Modal Reward Modelingを目指して
- Authors: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: オムニ・リワード(Omni-Reward, Omni-Reward)は、自由形式の選好をサポートする汎用的なオムニ・モーダル報酬モデリングのためのステップである。
本研究では248Kの一般嗜好ペアと69Kの命令調整ペアからなるマルチモーダル選好データセットを構築し,汎用的オムニモーダルRMのトレーニングを行う。
Omni-RewardBenchと他の広く使われている報酬モデルベンチマークにおいて、識別的および生成的RMの両方を含み、高い性能を実現するOmni-RewardModelを提案する。
- 参考スコア(独自算出の注目度): 38.99630864553283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) play a critical role in aligning AI behaviors with human preferences, yet they face two fundamental challenges: (1) Modality Imbalance, where most RMs are mainly focused on text and image modalities, offering limited support for video, audio, and other modalities; and (2) Preference Rigidity, where training on fixed binary preference pairs fails to capture the complexity and diversity of personalized preferences. To address the above challenges, we propose Omni-Reward, a step toward generalist omni-modal reward modeling with support for free-form preferences, consisting of: (1) Evaluation: We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form preferences, covering nine tasks across five modalities including text, image, video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal preference dataset comprising 248K general preference pairs and 69K instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We propose Omni-RewardModel, which includes both discriminative and generative RMs, and achieves strong performance on Omni-RewardBench as well as other widely used reward modeling benchmarks.
- Abstract(参考訳): リワードモデル(RM)は、AI行動と人間の嗜好を整合させる上で重要な役割を担いますが、それらは2つの根本的な課題に直面します。(1) モダリティの不均衡、ほとんどのRMは、主にテキストと画像のモダリティに焦点を当て、ビデオ、オーディオ、その他のモダリティを限定的にサポートします。
以上の課題に対処するため,1) 評価: 最初のOmni-RewardBench, 自由形式の好みを持つ最初のOmni-RewardBench, テキスト, 画像, ビデオ, 音声, 3Dを含む5つのモードのタスクをカバーするOmni-RewardData, 248K の汎用的嗜好ペアと 69K の命令調整ペアからなるマルチモーダル選好データセットを構築するOmni-RewardData, (3) モデル: 差別的および生成的RMの両方を含むOmni-RewardModelを提案する。
関連論文リスト
- UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in OmniModels [12.233067923710635]
マルチモーダル大言語モデルは、一様理解から視覚、音声、言語モダリティの統一へと発展し、総称してオムニモデルと呼ばれている。
我々は,UNi-modalとOmni-modalの両機能を効果的に評価する新しい,高品質で統一されたOmniモデルベンチマークUNO-Benchを提案する。
このベンチマークは、44のタスクタイプにまたがる98%のクロスモーダリティの可解性と、複雑な推論を評価するための革新的な多段階のオープンエンド質問タイプで構成されている。
論文 参考訳(メタデータ) (2025-10-21T06:14:40Z) - Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs [28.41899655478021]
Omni-DPOは、各選好ペアの固有品質とそれらのペア上でのモデルの進化性能を考慮に入れた双対パースペクティブ最適化フレームワークである。
様々なモデルとベンチマークの実験結果から,Omni-DPOの優位性と一般化能力が示された。
論文 参考訳(メタデータ) (2025-06-11T17:58:05Z) - RoboEgo System Card: An Omnimodal Model with Native Full Duplexity [48.52383812141669]
RoboEgo (別名:FLM-Ego)は、両方の課題に対処するために設計された統一モデルシステムである。
FLM-Egoにはバックボーンとアルゴリズムが組み込まれており、80ミリ秒のレイテンシの理論的二重化を実現している。
論文 参考訳(メタデータ) (2025-06-02T17:53:10Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。