Fugu-MT 論文翻訳(概要): Dissecting Query-Key Interaction in Vision Transformers

論文の概要: Dissecting Query-Key Interaction in Vision Transformers

arxiv url: http://arxiv.org/abs/2405.14880v2
Date: Mon, 27 May 2024 01:31:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 02:49:28.361918
Title: Dissecting Query-Key Interaction in Vision Transformers
Title（参考訳）: 視覚変換器における問合せキーの解離
Authors: Xu Pan, Aaron Philip, Ziqian Xie, Odelia Schwartz,
Abstract要約: 視覚変換器における自己注意はしばしば、トークンが同様の埋め込みを持つ他のトークンに付随する知覚的なグループ化を行うと考えられている。問合せキーの相互作用を解くために,Singular Value Decompositionを提案する。初期層は類似したトークンに,後期層は異種のトークンに注意を向ける傾向が見られた。
参考スコア（独自算出の注目度）: 4.743574336827573
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Self-attention in vision transformers is often thought to perform perceptual grouping where tokens attend to other tokens with similar embeddings, which could correspond to semantically similar features of an object. However, attending to dissimilar tokens can be beneficial by providing contextual information. We propose to use the Singular Value Decomposition to dissect the query-key interaction (i.e. ${\textbf{W}_q}^\top\textbf{W}_k$). We find that early layers attend more to similar tokens, while late layers show increased attention to dissimilar tokens, providing evidence corresponding to perceptual grouping and contextualization, respectively. Many of these interactions between features represented by singular vectors are interpretable and semantic, such as attention between relevant objects, between parts of an object, or between the foreground and background. This offers a novel perspective on interpreting the attention mechanism, which contributes to understanding how transformer models utilize context and salient features when processing images.
Abstract（参考訳）: 視覚変換器における自己注意は、トークンが類似した埋め込みを持つ他のトークンに付随する知覚的なグループ化を行うと考えられており、これはオブジェクトの意味論的に類似した特徴に対応できる。しかし、異なるトークンへの参加は文脈情報を提供することで有益である。本稿では、Singular Value Decomposition(Singular Value Decomposition)を用いてクエリキーの相互作用を分解する(${\textbf{W}_q}^\top\textbf{W}_k$)。初期層は類似のトークンにより近づき、後期層は異なるトークンに注意を向け、知覚的グループ化と文脈化に対応する証拠を提供する。特異ベクトルで表される特徴間のこれらの相互作用の多くは解釈可能であり、関連する対象間の注意、対象の部分間の注意、前景と背景の間の関心などである。これは、アテンションメカニズムの解釈に関する新しい視点を提供する。これは、トランスフォーマーモデルが画像を処理する際に、コンテキストと健全な特徴をどのように利用するかを理解するのに寄与する。

関連論文リスト

Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。 Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文参考訳（メタデータ） (2025-08-05T08:33:58Z)
Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [49.42020616826156]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文参考訳（メタデータ） (2025-06-10T17:59:21Z)
Token Coordinated Prompt Attention is Needed for Visual Prompting [28.018671250553137]
本稿では,Token Coordinated Prompt Attention (TCPA)モジュールを提案する。我々はこれらのプロンプトをCLS PromptsとImage Promptsに切り離し、注意機構を通じてCLSトークンや画像トークンとのみ対話する。異なる画像トークンは異なる画像パッチに対応し、多様な情報を含むので、一致したプロンプトを個別のトークンに自動的に割り当てる。
論文参考訳（メタデータ） (2025-05-05T06:59:26Z)
Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。 ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文参考訳（メタデータ） (2024-12-25T04:53:19Z)
KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文参考訳（メタデータ） (2024-10-14T07:39:30Z)
Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文参考訳（メタデータ） (2024-06-17T06:28:58Z)
Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文参考訳（メタデータ） (2024-05-26T01:46:22Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文参考訳（メタデータ） (2023-05-03T19:36:51Z)
Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文参考訳（メタデータ） (2022-12-06T21:42:05Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文参考訳（メタデータ） (2021-05-28T06:49:10Z)
Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文参考訳（メタデータ） (2021-04-17T05:03:56Z)
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文参考訳（メタデータ） (2020-04-23T14:58:22Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。