論文の概要: Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?
- arxiv url: http://arxiv.org/abs/2503.06252v1
- Date: Sat, 08 Mar 2025 15:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:55.957097
- Title: Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?
- Title(参考訳): 原子ステップ分解は多モード大モデルの自己構造推論を促進するか?
- Authors: Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Kaixin Cai, Yiyang Yin, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Yu-Jie Yuan, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang,
- Abstract要約: 本稿では,最小のセマンティック・アトミックステップから構成される自己構造的思考の連鎖(SCoT)のパラダイムを提案する。
本手法は, 複雑なタスクに対して認知的CoT構造を生成するだけでなく, 過度に考える現象を緩和する。
我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 68.72260770171212
- License:
- Abstract: In this paper, we address the challenging task of multimodal mathematical reasoning by incorporating the ability of "slow thinking" into multimodal large language models (MLLMs). Our core idea is that different levels of reasoning abilities can be combined dynamically to tackle questions with different complexity. To this end, we propose a paradigm of Self-structured Chain of Thought (SCoT), which is composed of minimal semantic atomic steps. Different from existing methods that rely on structured templates or free-form paradigms, our method can not only generate cognitive CoT structures for various complex tasks but also mitigates the phenomenon of overthinking. To introduce structured reasoning capabilities into visual understanding models, we further design a novel AtomThink framework with four key modules, including (i) a data engine to generate high-quality multimodal reasoning paths; (ii) a supervised fine-tuning process with serialized inference data; (iii) a policy-guided multi-turn inference method; and (iv) an atomic capability metric to evaluate the single step utilization rate. We conduct extensive experiments to show that the proposed AtomThink significantly improves the performance of baseline MLLMs, achieving more than 10\% average accuracy gains on MathVista and MathVerse. Compared to state-of-the-art structured CoT approaches, our method not only achieves higher accuracy but also improves data utilization by 5 times and boosts inference efficiency by 85.3\%. Our code is now public available in https://github.com/Quinn777/AtomThink.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)に「スロー思考」を組み込むことにより,マルチモーダルな数学的推論の課題に対処する。
私たちの中核的な考え方は、さまざまな推論能力のレベルを動的に組み合わせて、複雑さの異なる問題に取り組むことです。
そこで本研究では,最小のセマンティック・アトミック・ステップからなる自己構造的思考の連鎖(SCoT)のパラダイムを提案する。
構造化テンプレートや自由形式パラダイムに依存する既存の手法とは異なり,本手法は複雑なタスクに対して認知的CoT構造を生成するだけでなく,過度に考える現象を緩和する。
視覚的理解モデルに構造化推論機能を導入するために、我々はさらに4つの重要なモジュールを含む新しいAtomThinkフレームワークを設計する。
i) 高品質なマルチモーダル推論パスを生成するデータエンジン
二 シリアライズされた推測データによる監督された微調整処理
三 政策誘導マルチターン推論方法、及び
(4)単一ステップ利用率を評価するための原子能力指標。
我々は、提案したAtomThinkがベースラインMLLMの性能を大幅に改善し、MathVistaとMathVerseの平均精度を10倍以上向上することを示す広範囲な実験を行った。
最先端構造CoT手法と比較して,本手法は精度の向上だけでなく,データ利用率を5倍に向上し,推論効率を85.3倍に向上させる。
私たちのコードはhttps://github.com/Quinn777/AtomThinkで公開されています。
関連論文リスト
- Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking [24.416534698362643]
MLLM(Multimodal large language model)は印象的な能力を示すが、複雑な視覚的推論の課題に直面している。
我々はモンテカルロ木探索(MCTS)によるマルチモーダル推論のための自動構造化思考パラダイムであるAStarを提案する。
AStarはMCTSを使った階層構造を用いて、限られたデータから高レベルの認知的推論パターンを自動的に導き出す。
論文 参考訳(メタデータ) (2025-02-04T14:18:29Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。
AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。
AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-11-18T11:54:58Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。