Fugu-MT 論文翻訳(概要): Instruction Tuning-free Visual Token Complement for Multimodal LLMs

論文の概要: Instruction Tuning-free Visual Token Complement for Multimodal LLMs

arxiv url: http://arxiv.org/abs/2408.05019v1
Date: Fri, 9 Aug 2024 12:13:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 15:56:59.516418
Title: Instruction Tuning-free Visual Token Complement for Multimodal LLMs
Title（参考訳）: マルチモーダルLLMのための命令調整不要な視覚トケ補完
Authors: Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang,
Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
参考スコア（独自算出の注目度）: 51.138806401996696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the open community of large language models (LLMs) matures, multimodal LLMs (MLLMs) have promised an elegant bridge between vision and language. However, current research is inherently constrained by challenges such as the need for high-quality instruction pairs and the loss of visual information in image-to-text training objectives. To this end, we propose a Visual Token Complement framework (VTC) that helps MLLMs regain the missing visual features and thus improve response accuracy. Specifically, our VTC integrates text-to-image generation as a guide to identifying the text-irrelevant features, and a visual selector is then developed to generate complementary visual tokens to enrich the original visual input. Moreover, an iterative strategy is further designed to extract more visual information by iteratively using the visual selector without any additional training. Notably, the training pipeline requires no additional image-text pairs, resulting in a desired instruction tuning-free property. Both qualitative and quantitative experiments demonstrate the superiority and efficiency of our VTC.
Abstract（参考訳）: 大規模言語モデル (LLM) のオープンコミュニティが成熟するにつれて、マルチモーダル LLM (MLLM) は視覚と言語の間のエレガントな橋渡しを約束している。しかし、現在の研究は、高品質な命令ペアの必要性や、画像とテキストの学習目標における視覚情報の喪失といった課題によって、本質的に制限されている。そこで本稿では,MLLM が欠落した視覚的特徴を回復し,応答精度を向上させるための Visual Token Complement フレームワーク (VTC) を提案する。具体的には、VTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成し、元の視覚的入力を豊かにする。さらに、視覚的セレクタを付加訓練なしで反復的に使用することにより、より視覚的な情報を抽出する反復戦略も設計されている。特に、トレーニングパイプラインは追加のイメージテキストペアを必要としないため、望ましいチューニング不要なプロパティが提供される。定性的かつ定量的な実験は、VTCの優位性と効率性を実証している。

関連論文リスト

Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
Visual Adaptive Prompting for Compositional Zero-Shot Learning [0.0]
VLM(Vision-Language Models)は、視覚データとテキストデータの共同表現を学習する際、印象的なマルチモーダル機能を実証した。 CZSLは、属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
論文参考訳（メタデータ） (2025-02-27T17:17:43Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。 VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。 MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文参考訳（メタデータ） (2024-12-18T18:58:50Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。