論文の概要: TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings
- arxiv url: http://arxiv.org/abs/2409.09564v1
- Date: Sun, 15 Sep 2024 00:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:17:37.533568
- Title: TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings
- Title(参考訳): TG-LLaVA:学習可能な潜伏埋め込みによるテキストガイドLLaVA
- Authors: Dawei Yan, Pengcheng Li, Yang Li, Hao Chen, Qingguo Chen, Weihua Luo, Wei Dong, Qingsen Yan, Haokui Zhang, Chunhua Shen,
- Abstract要約: 視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
- 参考スコア(独自算出の注目度): 61.9257731511557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, inspired by the success of vision-language models (VLMs), an increasing number of researchers are focusing on improving VLMs and have achieved promising results. However, most existing methods concentrate on optimizing the connector and enhancing the language model component, while neglecting improvements to the vision encoder itself. In contrast, we propose Text Guided LLaVA (TG-LLaVA) in this paper, which optimizes VLMs by guiding the vision encoder with text, offering a new and orthogonal optimization direction. Specifically, inspired by the purpose-driven logic inherent in human behavior, we use learnable latent embeddings as a bridge to analyze textual instruction and add the analysis results to the vision encoder as guidance, refining it. Subsequently, another set of latent embeddings extracts additional detailed text-guided information from high-resolution local patches as auxiliary information. Finally, with the guidance of text, the vision encoder can extract text-related features, similar to how humans focus on the most relevant parts of an image when considering a question. This results in generating better answers. Experiments on various datasets validate the effectiveness of the proposed method. Remarkably, without the need for additional training data, our propsoed method can bring more benefits to the baseline (LLaVA-1.5) compared with other concurrent methods. Furthermore, the proposed method consistently brings improvement in different settings.
- Abstract(参考訳): 現在、視覚言語モデル(VLM)の成功に触発されて、多くの研究者がVLMの改善に注力し、有望な成果を上げている。
しかし、既存のほとんどのメソッドはコネクタの最適化と言語モデルコンポーネントの強化に集中しており、ビジョンエンコーダ自体の改善は無視している。
対照的に、本論文では、視覚エンコーダをテキストで導くことでVLMを最適化し、新しい直交最適化方向を提供するテキストガイド付きLLaVA(TG-LLaVA)を提案する。
具体的には、人間の行動に固有の目的駆動論理にインスパイアされ、学習可能な潜伏埋め込みをブリッジとして使用し、テキストの指示を分析し、分析結果を視覚エンコーダにガイダンスとして付加し、それを精製する。
その後、別の潜伏埋め込みセットは、高解像度ローカルパッチから追加の詳細なテキスト誘導情報を補助情報として抽出する。
最後に、テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
その結果、より良い回答が得られます。
提案手法の有効性を検証した各種データセットの実験を行った。
注目すべきは、追加のトレーニングデータを必要とせずに、提案手法は、他の並行メソッドと比較して、ベースライン(LLaVA-1.5)により多くの利益をもたらすことができることだ。
さらに,提案手法は異なる設定で常に改善をもたらす。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following [10.91834567383105]
人のポーズやオブジェクトとのインタラクションに関連する文脈的手がかりは、フォローする人を見つめるための貴重な情報を提供することができる。
視覚言語モデル (VLM) を用いて, 視覚の視線改善のために, 広範囲の文脈的手がかりを抽出し, 視線改善を行う。
画像全体と、対象人物の周りに描かれた楕円を併用することが、視覚的プロンプトの最も効果的な戦略である。
論文 参考訳(メタデータ) (2024-06-06T09:41:39Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - ZEN 2.0: Continue Training and Adaption for N-gram Enhanced Text
Encoders [32.53471313532653]
大量のデータと高度なトレーニング技術を備えたnグラムエンコーダの事前トレーニングを提案します。
言語やドメインにまたがるNLPタスクの長いリストから、最新のパフォーマンスが観察されます。
論文 参考訳(メタデータ) (2021-05-04T04:08:58Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。