論文の概要: COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
- arxiv url: http://arxiv.org/abs/2504.21850v1
- Date: Wed, 30 Apr 2025 17:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 17:26:10.065845
- Title: COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
- Title(参考訳): comositional Atomic-to-Complex Visual Capability Tuning
- Authors: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky,
- Abstract要約: MLLM(Multimodal Large Language Models)は、単純な視覚言語タスクに優れるが、複数の機能を必要とする複雑なタスクに直面すると苦労する。
VIT(Visual Instruction Tuning)は従来,データボリュームのスケールアップに重点を置いてきた。
トレーニング例の合成複雑性を明示的に制御するトレーニングデータセットを生成するCompactを提案する。
- 参考スコア(独自算出の注目度): 27.554093258249704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、単純な視覚言語タスクに優れるが、オブジェクトの認識、数え上げ、空間的関係の理解など、複数の機能を必要とする複雑なタスクに直面すると苦労する。
これは、MLLMにとって重要なトレーニングステップであるVisual Instruction Tuning(VIT)が、伝統的にデータボリュームのスケーリングに重点を置いていたが、トレーニング例の構成上の複雑さには焦点を合わせていなかったことによるものであるかもしれない。
我々は、トレーニング例の構成複雑性を明示的に制御するトレーニングデータセットを生成するCompact(COMPositional Atomic-to-complex visual Capability Tuning)を提案する。
COMPACTのデータにより、MLLMは複雑な能力をより効率的に学習するための原子能力の組み合わせを訓練することができる。
すべてのベンチマークで、CompactはLLaVA-665k VITに匹敵するパフォーマンスを達成し、データ予算の10%未満を使用し、複雑なマルチキャパビリティタスクを含む複数のタスクにおいてパフォーマンスを上回ります。
例えば、CompactはMMStarの83.3%の改善とMM-Vetの94.0%の改善を実現している。
COMPACTは、複雑な視覚言語タスクを改善するために、スケーラブルでデータ効率の良いビジュアルコンポジションチューニングのレシピを提供する。
関連論文リスト
- Learning to Instruct for Visual Instruction Tuning [56.23557578405653]
視覚インストラクションチューニング(VIT)の進歩であるLITを提案する。
LITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。
驚くべきことに、LITは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文 参考訳(メタデータ) (2025-03-28T08:04:51Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である
我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。
実験結果から, MLLMの強化性能が一貫した結果を得た。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。