論文の概要: Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2601.09536v1
- Date: Wed, 14 Jan 2026 14:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.442248
- Title: Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning
- Title(参考訳): Omni-R1:マルチモーダル推論のための統一生成パラダイムを目指して
- Authors: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li,
- Abstract要約: 本稿では、中間画像を生成することにより、多様なマルチモーダル推論スキルを統一する統合生成多モーダル推論を提案する。
我々はこのパラダイムを、2段階のSFT+RLフレームワークであるOmni-R1でインスタンス化する。
Omni-R1-Zeroは、テキストのみの推論データからステップワイドな視覚化をブートストラップすることで、マルチモーダルアノテーションの必要性を解消する。
- 参考スコア(独自算出の注目度): 59.86870002382296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は多モーダル推論において大きな進歩を遂げている。
初期のアプローチはテキストベースの推論に重点を置いていた。
近年の研究では、多モーダル情報を推論のステップに取り入れているが、それらは多モーダルタスク間の一般化性を制限する単一のタスク固有の推論パターンに従うことが多い。
実際、特定の領域のズームインや画像内のオブジェクトのマークなど、さまざまな推論スキルを必要とする、多数のマルチモーダルタスクがあります。
そこで本研究では、中間画像を生成することにより、多様なマルチモーダル推論スキルを統一する統合生成多モーダル推論を提案する。
我々はこのパラダイムを、2段階のSFT+RLフレームワークであるOmni-R1でインスタンス化する。
さらに,テキストのみの推論データから段階的視覚化をブートストラップすることで,マルチモーダルアノテーションの必要性を解消するOmni-R1-Zeroを導入する。
実験の結果,Omni-R1は多モーダルタスクにまたがる統一的生成的推論を達成でき,Omni-R1-Zeroは平均的にOmni-R1と一致するか,さらに上回っていることが示唆され,生成的多モーダル推論の有望な方向性が示唆された。
関連論文リスト
- OneThinker: All-in-one Reasoning Model for Image and Video [45.8205286430071]
多様な視覚的タスクにおける画像と映像の理解を統一するオールインワン推論モデルであるOneThinkerを提案する。
実験によると、OneThinkerは10の基本的な視覚的理解タスクに対して、31のベンチマークで強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-02T18:59:52Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。