論文の概要: Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2502.11514v1
- Date: Mon, 17 Feb 2025 07:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:31.175227
- Title: Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study
- Title(参考訳): マルチモーダル思考の連鎖における推論時間スケーリングの検討 : 予備的検討
- Authors: Yujie Lin, Ante Wang, Moye Chen, Jingyao Liu, Hao Liu, Jinsong Su, Xinyan Xiao,
- Abstract要約: 様々な領域にまたがる10の課題に対して,一般的なサンプリングベースと木探索ベースの推論時間スケーリング手法について検討した。
結果から,マルチモーダル思考は従来のテキストのみの思考よりも性能が向上することが示された。
これらの利点にもかかわらず、マルチモーダル思考はよりリッチな視覚入力を処理するためにより高いトークン消費を必要とする。
- 参考スコア(独自算出の注目度): 44.35454088618666
- License:
- Abstract: Recently, inference-time scaling of chain-of-thought (CoT) has been demonstrated as a promising approach for addressing multi-modal reasoning tasks. While existing studies have predominantly centered on text-based thinking, the integration of both visual and textual modalities within the reasoning process remains unexplored. In this study, we pioneer the exploration of inference-time scaling with multi-modal thought, aiming to bridge this gap. To provide a comprehensive analysis, we systematically investigate popular sampling-based and tree search-based inference-time scaling methods on 10 challenging tasks spanning various domains. Besides, we uniformly adopt a consistency-enhanced verifier to ensure effective guidance for both methods across different thought paradigms. Results show that multi-modal thought promotes better performance against conventional text-only thought, and blending the two types of thought fosters more diverse thinking. Despite these advantages, multi-modal thoughts necessitate higher token consumption for processing richer visual inputs, which raises concerns in practical applications. We hope that our findings on the merits and drawbacks of this research line will inspire future works in the field.
- Abstract(参考訳): 近年、マルチモーダル推論タスクに対処するための有望なアプローチとして、チェーン・オブ・シント(CoT)の推論時間スケーリングが実証されている。
既存の研究は主にテキストベースの思考に重点を置いているが、推論過程における視覚的・テキスト的モダリティの統合は未解明のままである。
本研究では,このギャップを埋めることを目的として,マルチモーダル思考を用いた推論時間スケーリングの先駆的研究を行った。
様々な領域にまたがる10の課題に対して,一般的なサンプリングベースおよびツリー検索に基づく推論時間スケーリング手法を体系的に検討した。
さらに,異なる思考パラダイムにまたがる2つの手法の効果的なガイダンスを確保するために,一貫性向上型検証器を均一に採用する。
以上の結果から,マルチモーダル思考は従来のテキストのみの思考に比較して,より多様な思考を促すことが示唆された。
これらの利点にもかかわらず、マルチモーダル思考はよりリッチな視覚入力を処理するためにより高いトークン消費を必要とするため、実用的な応用に懸念が生じる。
この研究ラインのメリットと欠点に関する私たちの発見が、この分野における今後の研究に刺激を与えてくれることを願っています。
関連論文リスト
- Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion [17.702549833449435]
マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
タスク依存予測に対する異なるモダリティの不均衡な寄与は、正準多モード法の識別性能を常に低下させる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
論文 参考訳(メタデータ) (2024-06-17T12:55:56Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z) - Evolutionary Multitask Optimization: a Methodological Overview,
Challenges and Future Research Directions [8.14509634354919]
一つの探索プロセスを実行することで、複数の最適化問題を同時に解くという文脈でマルチタスクを考える。
進化的マルチタスクの新たなパラダイムは、進化的計算から引き出されたインスピレーションの概念を用いて、マルチタスク最適化のシナリオに取り組む。
論文 参考訳(メタデータ) (2021-02-04T11:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。