論文の概要: ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding
- arxiv url: http://arxiv.org/abs/2602.23306v1
- Date: Thu, 26 Feb 2026 18:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.839916
- Title: ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding
- Title(参考訳): ThinkOmni: ガイダンスデコーディングによるOmni-modalシナリオへのリフティングテキスト推論
- Authors: Yiran Guan, Sifan Tu, Dingkang Liang, Linghao Zhu, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai,
- Abstract要約: Think Omniはトレーニングフリーでデータフリーのフレームワークで、テキスト推論をOmni-modalのシナリオに持ち上げる。
6つのマルチモーダル推論ベンチマークの実験では、Think Omniが一貫してパフォーマンス改善を実現している。
- 参考スコア(独自算出の注目度): 65.16833684071715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal reasoning is essential for intelligent systems to understand and draw inferences from diverse data sources. While existing omni-modal large language models (OLLM) excel at perceiving diverse modalities, they lack the complex reasoning abilities of recent large reasoning models (LRM). However, enhancing the reasoning ability of OLLMs through additional training presents significant challenges, including the need for high-quality data, task-specific adaptation, and substantial computational costs. To address these limitations, we propose ThinkOmni, a training-free and data-free framework that lifts textual reasoning to omni-modal scenarios. ThinkOmni introduces two key components: 1) LRM-as-a-Guide, which leverages off-the-shelf LRMs to guide the OLLM decoding process; 2) Stepwise Contrastive Scaling, which adaptively balances perception and reasoning signals without manual hyperparameter tuning. Experiments on six multi-modal reasoning benchmarks demonstrate that ThinkOmni consistently delivers performance improvements, with main results achieving 70.2 on MathVista and 75.5 on MMAU. Overall, ThinkOmni offers a flexible and generalizable solution for omni-modal reasoning and provides new insights into the generalization and application of reasoning capabilities.
- Abstract(参考訳): オムニモーダル推論は、知的システムが多様なデータソースから推論を理解し、引き出すのに不可欠である。
既存のOmni-Modal Large Language Model (OLLM) は様々なモダリティの知覚に優れるが、最近の大きな推論モデル(LRM)の複雑な推論能力は欠如している。
しかし、OLLMの推論能力の向上は、高品質なデータの必要性、タスク固有の適応、相当な計算コストなど、大きな課題を呈している。
このような制限に対処するため、トレーニング不要でデータフリーなフレームワークであるThinkOmniを提案する。
ThinkOmniは2つの重要なコンポーネントを紹介している。
1 LRM-as-a-Guideは、既製のLEMを利用してOLLM復号プロセスを導出する。
2)手動のハイパーパラメータチューニングなしで知覚と推論のバランスをとるステップワイドコントラストスケーリング。
6つのマルチモーダル推論ベンチマークの実験では、ThinkOmniは一貫してパフォーマンスを改善し、MathVistaでは70.2、MMAUでは75.5を達成している。
全体として、ThinkOmniはオムニモーダル推論の柔軟性と一般化可能なソリューションを提供し、推論能力の一般化と応用に関する新たな洞察を提供する。
関連論文リスト
- Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning [57.96134674544638]
本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。
本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
論文 参考訳(メタデータ) (2025-12-03T13:33:28Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design [21.582176552307974]
FinLMM-R1は、データ構築のための自動化されたスケーラブルなパイプラインと、LMMのマルチモーダル推論を改善するための強化されたトレーニング戦略を組み合わせる。
23,397の財務報告から89,378枚の画像検索ペアを収集し,算術的推論,統計的推論,財務的説明,財務的知識などのタスクを網羅した。
第1段階では、構造化された思考内容の生成において、モデルを導くための形式と精度の報酬を伴うテキストのみのタスクに焦点をあてる。
第2段階では,画像選択,思考内容長,対人報酬などの付加的な報酬成分を付加したマルチイメージコントラスト型サンプルを構築した。
論文 参考訳(メタデータ) (2025-06-16T03:19:31Z) - MMLU-Reason: Benchmarking Multi-Task Multi-modal Language Understanding and Reasoning [40.55833679660528]
我々は,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークMMLU-Reasonを紹介する。
MMLU-Reasonは1)記号深度とマルチホップ要求の6つの異なる推論タイプにまたがる1,083の質問の高拡散データセットからなる。
全体として、MMLU-Reasonは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-05-22T09:41:55Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。