論文の概要: Vision-Language Models Create Cross-Modal Task Representations
- arxiv url: http://arxiv.org/abs/2410.22330v2
- Date: Wed, 07 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.68827
- Title: Vision-Language Models Create Cross-Modal Task Representations
- Title(参考訳): モーダルなタスク表現を生成する視覚言語モデル
- Authors: Grace Luo, Trevor Darrell, Amir Bar,
- Abstract要約: 視覚言語モデル(VLM)は,概念的に等価な入力を共有タスクベクトルに整合させることができる。
このアライメントを,タスクやモデルアーキテクチャのクロスモーダル転送を通じて測定する。
タスクベクトルはベース言語モデルから微調整された視覚言語モデルに変換可能であることを示す。
- 参考スコア(独自算出の注目度): 58.19152818504624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive vision-language models (VLMs) can handle many tasks within a single model, yet the representations that enable this capability remain opaque. We find that VLMs align conceptually equivalent inputs into a shared task vector, which is invariant to modality (text, image) and format (examples, instruction), and may simplify VLM processing. We measure this alignment via cross-modal transfer -- the ability of a task vector derived in one modality to trigger the correct generation in another -- on a range of tasks and model architectures. Although the task vector is highly compressed, we find that this single vector outperforms prompting the model with the full task information, unique to this cross-modal case. Furthermore, we show that task vectors can be transferred from a base language model to its fine-tuned vision-language counterpart, and that they can be derived solely from instructions without the need for examples. Taken together, our findings shed light on how VLMs internally process task information, and how they map different modalities into common semantic representations. Project page: https://vlm-cross-modal-reps.github.io.
- Abstract(参考訳): 自動回帰視覚言語モデル(VLM)は単一のモデル内で多くのタスクを処理できるが、この機能を実現する表現は不透明である。
VLMは、概念的に等価な入力を、モダリティ(テキスト、画像)とフォーマット(サンプル、命令)に不変な共有タスクベクトルに整合させ、VLM処理を単純化する可能性がある。
このアライメントは、タスクとモデルアーキテクチャの範囲で、あるモダリティから派生したタスクベクトルが別のモダリティで正しい生成をトリガーする能力であるクロスモーダル転送によって測定します。
タスクベクトルは高度に圧縮されているが、この1つのベクトルは、このクロスモーダルケースに特有の完全なタスク情報でモデルに先行する。
さらに,タスクベクトルは基本言語モデルから微調整された視覚言語モデルに変換可能であり,例を必要とせずに命令のみから導出可能であることを示す。
まとめると、VLMがタスク情報を内部的にどのように処理するか、どのように異なるモダリティを共通意味表現にマッピングするかが明らかになった。
プロジェクトページ: https://vlm-cross-modal-reps.github.io
関連論文リスト
- REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文 参考訳(メタデータ) (2025-03-10T14:59:14Z) - Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning [4.676050557609447]
VLM(Vision-Language Models)は、画像検索やVQA(Visual Question Answering)といった視覚的および推論能力を必要とするタスクを変換している。
これらの制限は、複数のモダリティを効果的に統合し、幾何学に関連したタスクを正確に解釈することの難しさに起因している。
我々は、タスクベースのプロンプト、タスク固有のガイダンスでプロンプトを充実させる、有望な代替手段を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:29:40Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Finding Visual Task Vectors [74.67336516908776]
ビジュアルプロンプティング(Visual Prompting)は、モデルに、追加のトレーニングなしで、コンテキスト内の例を通して視覚的なタスクを実行するように教えるテクニックである。
我々は,最新のVisual PromptingモデルであるMAE-VQGANのアクティベーションを分析し,タスク固有情報をエンコードするタスクベクトル,アクティベーションを求める。
論文 参考訳(メタデータ) (2024-04-08T17:59:46Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - Compressed Hierarchical Representations for Multi-Task Learning and Task
Clustering [5.878411350387833]
階層的表現学習問題として,同質なマルチタスク学習を考察する。
タスク非依存表現とタスク固有の潜在表現の間には,付加的な独立ノイズモデルが仮定される。
これらの結果から,MTLベンチマークの競合性能が得られた。
論文 参考訳(メタデータ) (2022-05-31T15:31:17Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。