論文の概要: Task Vectors are Cross-Modal
- arxiv url: http://arxiv.org/abs/2410.22330v1
- Date: Tue, 29 Oct 2024 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:58.747301
- Title: Task Vectors are Cross-Modal
- Title(参考訳): Task Vectorsはクロスモーダル
- Authors: Grace Luo, Trevor Darrell, Amir Bar,
- Abstract要約: 視覚・言語モデル(VLM)の内部表現について検討する。
我々は、例や指示によって指定されたタスクを、テキストまたは画像入力のいずれかを用いて検討する。
概念的に類似したタスクは、どのように指定されたかに関わらず、類似したタスクベクトル表現にマッピングされる。
- 参考スコア(独自算出の注目度): 58.19152818504624
- License:
- Abstract: We investigate the internal representations of vision-and-language models (VLMs) and how they encode task representations. We consider tasks specified through examples or instructions, using either text or image inputs. Surprisingly, we find that conceptually similar tasks are mapped to similar task vector representations, regardless of how they are specified. Our findings suggest that to output answers, tokens in VLMs undergo three distinct phases: input, task, and answer, a process which is consistent across different modalities and specifications. The task vectors we identify in VLMs are general enough to be derived in one modality (e.g., text) and transferred to another (e.g., image). Additionally, we find that ensembling exemplar and instruction based task vectors produce better task representations. Taken together, these insights shed light on the underlying mechanisms of VLMs, particularly their ability to represent tasks in a shared manner across different modalities and task specifications. Project page: https://task-vectors-are-cross-modal.github.io.
- Abstract(参考訳): 視覚・言語モデル(VLM)の内部表現とタスク表現のエンコード方法について検討する。
我々は、例や指示によって指定されたタスクを、テキストまたは画像入力のいずれかを用いて検討する。
意外なことに、概念的に類似したタスクは、どのように指定されたかに関わらず、類似したタスクベクトル表現にマッピングされる。
以上の結果から, VLMのトークンは, 入力, タスク, 応答の3つの異なる段階, 異なるモダリティや仕様に対して一貫したプロセスを出力することが示唆された。
VLMで特定されるタスクベクトルは、1つのモード(eg, text)で導出され、別のタスク(eg, image)に転送されるのに十分である。
さらに,従来のタスクベクトルと命令ベースのタスクベクトルのアンサンブルにより,より優れたタスク表現が得られることがわかった。
まとめると、これらの洞察は、VLMの基盤となるメカニズム、特に様々なモダリティやタスク仕様をまたいだ共有的な方法でタスクを表現する能力に光を当てています。
プロジェクトページ: https://task-vectors-are-cross-modal.github.io
関連論文リスト
- Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning [4.676050557609447]
VLM(Vision-Language Models)は、画像検索やVQA(Visual Question Answering)といった視覚的および推論能力を必要とするタスクを変換している。
これらの制限は、複数のモダリティを効果的に統合し、幾何学に関連したタスクを正確に解釈することの難しさに起因している。
我々は、タスクベースのプロンプト、タスク固有のガイダンスでプロンプトを充実させる、有望な代替手段を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:29:40Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Finding Visual Task Vectors [74.67336516908776]
ビジュアルプロンプティング(Visual Prompting)は、モデルに、追加のトレーニングなしで、コンテキスト内の例を通して視覚的なタスクを実行するように教えるテクニックである。
我々は,最新のVisual PromptingモデルであるMAE-VQGANのアクティベーションを分析し,タスク固有情報をエンコードするタスクベクトル,アクティベーションを求める。
論文 参考訳(メタデータ) (2024-04-08T17:59:46Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - Compressed Hierarchical Representations for Multi-Task Learning and Task
Clustering [5.878411350387833]
階層的表現学習問題として,同質なマルチタスク学習を考察する。
タスク非依存表現とタスク固有の潜在表現の間には,付加的な独立ノイズモデルが仮定される。
これらの結果から,MTLベンチマークの競合性能が得られた。
論文 参考訳(メタデータ) (2022-05-31T15:31:17Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。