論文の概要: GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
- arxiv url: http://arxiv.org/abs/2506.01078v1
- Date: Sun, 01 Jun 2025 16:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.252316
- Title: GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
- Title(参考訳): GThinker: Cue-Guided Reasoningによる汎用マルチモーダル推論を目指して
- Authors: Yufei Zhan, Ziheng Wu, Yousong Zhu, Rongkun Xue, Ruipu Luo, Zhenghao Chen, Can Zhang, Yifan Li, Zhentao He, Zheming Yang, Ming Tang, Minghui Qiu, Jinqiao Wang,
- Abstract要約: GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
- 参考スコア(独自算出の注目度): 35.14983424309319
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite notable advancements in multimodal reasoning, leading Multimodal Large Language Models (MLLMs) still underperform on vision-centric multimodal reasoning tasks in general scenarios. This shortfall stems from their predominant reliance on logic- and knowledge-based slow thinking strategies, while effective for domains like math and science, fail to integrate visual information effectively during reasoning. Consequently, these models often fail to adequately ground visual cues, resulting in suboptimal performance in tasks that require multiple plausible visual interpretations and inferences. To address this, we present GThinker (General Thinker), a novel reasoning MLLM excelling in multimodal reasoning across general scenarios, mathematics, and science. GThinker introduces Cue-Rethinking, a flexible reasoning pattern that grounds inferences in visual cues and iteratively reinterprets these cues to resolve inconsistencies. Building on this pattern, we further propose a two-stage training pipeline, including pattern-guided cold start and incentive reinforcement learning, designed to enable multimodal reasoning capabilities across domains. Furthermore, to support the training, we construct GThinker-11K, comprising 7K high-quality, iteratively-annotated reasoning paths and 4K curated reinforcement learning samples, filling the data gap toward general multimodal reasoning. Extensive experiments demonstrate that GThinker achieves 81.5% on the challenging comprehensive multimodal reasoning benchmark M$^3$CoT, surpassing the latest O4-mini model. It also shows an average improvement of 2.1% on general scenario multimodal reasoning benchmarks, while maintaining on-par performance in mathematical reasoning compared to counterpart advanced reasoning models. The code, model, and data will be released soon at https://github.com/jefferyZhan/GThinker.
- Abstract(参考訳): マルチモーダル推論の顕著な進歩にもかかわらず、MLLM(Multimodal Large Language Models)は、一般的なシナリオにおける視覚中心のマルチモーダル推論タスクではまだパフォーマンスが劣っている。
この欠点は、論理的および知識に基づく遅い思考戦略に大きく依存していることに由来するが、数学や科学のような領域では効果的であるが、推論中に視覚情報を効果的に統合できない。
その結果、これらのモデルは視覚的手がかりを適切に理解することができず、複数の可視的解釈と推論を必要とするタスクにおいて、最適以下の性能が得られる。
この問題を解決するために、GThinker (General Thinker) という、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMを提案する。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
このパターンに基づいて、パターン誘導型コールドスタートとインセンティブ強化学習を含む、ドメイン間のマルチモーダル推論機能を実現するための2段階のトレーニングパイプラインも提案する。
さらに,学習を支援するため,GThinker-11Kの構築を行った。GThinker-11Kは、7Kの高品質かつ反復的に注釈付き推論パスと4Kの強化学習サンプルで構成され,一般的なマルチモーダル推論に向けてのデータギャップを埋める。
大規模な実験により、GThinkerは最新のO4-miniモデルを上回る、挑戦的な総合マルチモーダル推論ベンチマークM$^3$CoTで81.5%を達成した。
また、一般的なシナリオのマルチモーダル推論のベンチマークでは平均2.1%の改善が見られ、数学的な推論では、他の高度な推論モデルと比較すると、オンパー性能を維持している。
コード、モデル、データは間もなくhttps://github.com/jefferyZhan/GThinker.comでリリースされる。
関連論文リスト
- Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - TypedThinker: Diversify Large Language Model Reasoning with Typed Thinking [44.8904486513791]
大規模言語モデル(LLM)は複雑な問題を解決する上で強力な推論能力を示している。
問題とそれ以前の有効性に基づいて適切な推論型を予測するTypedThinkerを提案する。
GPT-4oのようなより高度なシステムやMetaMathのような特殊なモデルに統合することで、推論アプローチを多様化し、問題解決能力を向上させることができる。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。