論文の概要: Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation
- arxiv url: http://arxiv.org/abs/2507.02859v1
- Date: Thu, 03 Jul 2025 17:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.877883
- Title: Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation
- Title(参考訳): データ効率モデル適応のためのマルチモーダルLDMにおけるブーストトラップ接地連鎖
- Authors: Jiaer Xia, Bingkui Tong, Yuhang Zang, Rui Shao, Kaiyang Zhou,
- Abstract要約: MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで、特殊な視覚タスクにおけるモデル適応が容易になることを示す。
我々は,CoTデータに接地情報を注入することを目的とした,単純なブートストラップに基づくアプローチであるグラウンドド・チェーン・オブ・ワット(GCoT)を提案する。
様々な視覚形式をカバーする5つの視覚タスクに対するアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 25.283739839182147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in interpreting images using natural language. However, without using large-scale datasets for retraining, these models are difficult to adapt to specialized vision tasks, e.g., chart understanding. This problem is caused by a mismatch between pre-training and downstream datasets: pre-training datasets primarily concentrate on scenes and objects but contain limited information about specialized, non-object images, such as charts and tables. In this paper, we share an interesting finding that training an MLLM with Chain-of-Thought (CoT) reasoning data can facilitate model adaptation in specialized vision tasks, especially under data-limited regimes. However, we identify a critical issue within CoT data distilled from pre-trained MLLMs, i.e., the data often contains multiple factual errors in the reasoning steps. To address the problem, we propose Grounded Chain-of-Thought (GCoT), a simple bootstrapping-based approach that aims to inject grounding information (i.e., bounding boxes) into CoT data, essentially making the reasoning steps more faithful to input images. We evaluate our approach on five specialized vision tasks, which cover a variety of visual formats including charts, tables, receipts, and reports. The results demonstrate that under data-limited regimes our approach significantly improves upon fine-tuning and distillation.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然言語を用いた画像の解釈において顕著な能力を示した。
しかし、大規模なデータセットをトレーニングに使わなければ、チャート理解のような特殊な視覚タスクに適応することは困難である。
事前トレーニングデータセットは、主にシーンやオブジェクトに焦点を当てるが、チャートやテーブルなど、特殊な非オブジェクトイメージに関する情報は限られている。
本稿では,MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで,特にデータ制限条件下での視覚タスクのモデル適応が促進されることを示す。
しかし、事前訓練されたMLLMから抽出したCoTデータ内の重要な問題、すなわち、そのデータは推論ステップに複数の事実エラーを含むことが多い。
この問題に対処するため,我々は,CoTデータに接地情報(つまりバウンディングボックス)を注入することを目的とした,単純なブートストラップに基づくアプローチであるGCoT(Gunded Chain-of-Thought)を提案する。
我々は,5つの視覚的タスクに対するアプローチを評価し,チャートや表,レシート,レポートなど,さまざまな視覚的形式を網羅する。
以上の結果から,データ制限体制下では細調整や蒸留が大幅に改善されることが示された。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - All in One and One for All: A Simple yet Effective Method towards Cross-domain Graph Pretraining [18.955565096212183]
大規模言語モデル (LLM) はコンピュータビジョン (CV) と自然言語処理 (NLP) の分野に革命をもたらした。
LLMの最も注目すべき進歩の1つは、単一のモデルが複数のドメインにまたがる広範囲で多様なデータセットでトレーニングされていることである。
論文 参考訳(メタデータ) (2024-02-15T09:55:39Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。