Fugu-MT 論文翻訳(概要): Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

論文の概要: Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

arxiv url: http://arxiv.org/abs/2412.03565v1
Date: Wed, 04 Dec 2024 18:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.778039
Title: Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
Title（参考訳）: Inst-IT: 明示的なビジュアルプロンプトインストラクションチューニングによるマルチモーダルインスタンス理解の強化
Authors: Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang,
Abstract要約: Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
参考スコア（独自算出の注目度）: 125.79428219851289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) have made significant breakthroughs with the advancement of instruction tuning. However, while existing models can understand images and videos at a holistic level, they still struggle with instance-level understanding that requires a more nuanced comprehension and alignment. Instance-level understanding is crucial, as it focuses on the specific elements that we are most interested in. Excitingly, existing works find that the state-of-the-art LMMs exhibit strong instance understanding capabilities when provided with explicit visual cues. Motivated by this, we introduce an automated annotation pipeline assisted by GPT-4o to extract instance-level information from images and videos through explicit visual prompting for instance guidance. Building upon this pipeline, we proposed Inst-IT, a solution to enhance LMMs in Instance understanding via explicit visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose multimodal instance-level understanding, a large-scale instruction-tuning dataset, and a continuous instruction-tuning training paradigm to effectively enhance spatial-temporal instance understanding capabilities of existing LMMs. Experimental results show that, with the boost of Inst-IT, our models not only achieve outstanding performance on Inst-IT Bench but also demonstrate significant improvements across various generic image and video understanding benchmarks. This highlights that our dataset not only boosts instance-level understanding but also strengthens the overall capabilities of generic image and video comprehension.
Abstract（参考訳）: LMM(Large Multimodal Models)は、命令チューニングの進歩によって大きなブレークスルーを遂げた。しかし、既存のモデルは画像や動画を全体的レベルで理解することができるが、より微妙な理解とアライメントを必要とするインスタンスレベルの理解に苦慮している。インスタンスレベルの理解は、私たちが最も関心を持っている特定の要素に焦点を当てているため、非常に重要です。興味深いことに、既存の研究によると、最先端のLMMは、明示的な視覚的手がかりが提供されると、強力なインスタンス理解能力を示す。そこで我々は,GPT-4oが支援する自動アノテーションパイプラインを導入し,画像やビデオからインスタンスレベルの情報を抽出する。このパイプライン上に構築したInst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じて、インスタンス理解におけるLMMを強化するソリューションである。 Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模な命令チューニングデータセット、既存のLMMの時空間インスタンス理解能力を効果的に向上する継続的命令チューニングトレーニングパラダイムで構成されている。実験結果から,Inst-ITの高速化により,Inst-IT Benchの性能向上だけでなく,汎用画像およびビデオ理解ベンチマークにおける大幅な改善が示された。このことは、私たちのデータセットがインスタンスレベルの理解を促進するだけでなく、ジェネリックイメージとビデオ理解の全体的な能力を強化することを強調している。

関連論文リスト

Learning to Instruct for Visual Instruction Tuning [56.23557578405653]
視覚インストラクションチューニング(VIT)の進歩であるLITを提案する。 LITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。驚くべきことに、LITは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文参考訳（メタデータ） (2025-03-28T08:04:51Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。 VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。 MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文参考訳（メタデータ） (2024-12-18T18:58:50Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文参考訳（メタデータ） (2024-05-31T13:56:55Z)
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models [42.182009352159]
We present a new efficient LLVM, Mamba based traversal of rationales (Meteor) 豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
論文参考訳（メタデータ） (2024-05-24T14:04:03Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。 VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文参考訳（メタデータ） (2023-08-08T09:32:43Z)
What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。 GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文参考訳（メタデータ） (2023-05-20T16:11:26Z)
Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文参考訳（メタデータ） (2023-03-06T06:04:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。