論文の概要: TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action
- arxiv url: http://arxiv.org/abs/2412.05479v1
- Date: Sat, 07 Dec 2024 00:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:27.782552
- Title: TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action
- Title(参考訳): TACO:synthetic Chains-of-Thought-and-Actionを用いたマルチモーダルアクションモデル学習
- Authors: Zixian Ma, Jianguo Zhang, Zhiwei Liu, Jieyu Zhang, Juntao Tan, Manli Shu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Caiming Xiong, Ranjay Krishna, Silvio Savarese,
- Abstract要約: 複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
- 参考スコア(独自算出の注目度): 103.5952731807559
- License:
- Abstract: While open-source multi-modal language models perform well on simple question answering tasks, they often fail on complex questions that require multiple capabilities, such as fine-grained recognition, visual grounding, and reasoning, and that demand multi-step solutions. We present TACO, a family of multi-modal large action models designed to improve performance on such complex, multi-step, and multi-modal tasks. During inference, TACO produces chains-of-thought-and-action (CoTA), executes intermediate steps by invoking external tools such as OCR, depth estimation and calculator, then integrates both the thoughts and action outputs to produce coherent responses. To train TACO, we create a large dataset of over 1M synthetic CoTA traces generated with GPT-4o and Python programs. We then experiment with various data filtering and mixing techniques and obtain a final subset of 293K high-quality CoTA examples. This dataset enables TACO to learn complex reasoning and action paths, surpassing existing models trained on instruction tuning data with only direct answers. Our model TACO outperforms the instruction-tuned baseline across 8 benchmarks, achieving a 3.6% improvement on average, with gains of up to 15% in MMVet tasks involving OCR, mathematical reasoning, and spatial reasoning. Training on high-quality CoTA traces sets a new standard for complex multi-modal reasoning, highlighting the need for structured, multi-step instruction tuning in advancing open-source mutli-modal models' capabilities.
- Abstract(参考訳): オープンソースのマルチモーダル言語モデルは、単純な質問応答タスクでうまく機能するが、細粒度認識、視覚的基礎化、推論などの複数の機能を必要とする複雑な質問で失敗し、マルチステップのソリューションを要求することが多い。
本稿では,複雑なマルチステップ,マルチモーダルタスクの性能向上を目的とした,マルチモーダルな大規模アクションモデルのファミリーであるTACOを紹介する。
推論中、TACOはチェーン・オブ・シンク・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出して中間ステップを実行し、思考と行動出力を統合してコヒーレントな応答を生成する。
TACOをトレーニングするために、GPT-4oとPythonプログラムで生成された100万以上の合成CoTAトレースの大規模なデータセットを作成します。
次に、様々なデータフィルタリングおよび混合手法を実験し、293Kの高品質なCoTAサンプルの最終的なサブセットを得る。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
我々のモデルTACOは8つのベンチマークで命令調整ベースラインを上回り、平均3.6%の改善を実現し、OCR、数学的推論、空間推論を含む最大15%のMMVetタスクが達成された。
高品質なCoTAトレースのトレーニングは、複雑なマルチモーダル推論のための新しい標準を設定し、オープンソースのミュートリモーダルモデルの能力を前進させる上で、構造化されたマルチステップ命令チューニングの必要性を強調している。
関連論文リスト
- What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文 参考訳(メタデータ) (2024-06-13T17:59:53Z) - KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning [3.103778949672541]
マルチモーダルタスクを包括的に理解するために,CoT推論,知識グラフ,複数モードを統合したフレームワークを提案する。
KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。
平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。
論文 参考訳(メタデータ) (2024-01-23T15:56:11Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。