論文の概要: Improved Belief-Attention in Vision Task
- arxiv url: http://arxiv.org/abs/2606.00077v1
- Date: Fri, 22 May 2026 09:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.544535
- Title: Improved Belief-Attention in Vision Task
- Title(参考訳): 視覚課題における信念意識の改善
- Authors: Guoqiang Zhang,
- Abstract要約: 本稿では,垂直成分と投影成分の両方を用いて,Belief-Attentionを拡張することを提案する。
Belief2-Attention は標準の Attention よりも表現力が高い。
- 参考スコア(独自算出の注目度): 3.0375720406993385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Belief-Attention \cite{Guoqiang25BeliefAttention} has been proposed by first performing an orthogonal projection of the softmax-based weighted summation of $V$ vectors with respect to the original $V$ vectors and then taking the perpendicular component as the residual signal in Transformer for performance improvement. In this paper, we first conduct an ablation study showing the projected component also carries information about the token correlation, which should not be ignored. We then propose to extend Belief-Attention by making use of both the perpendicular and projected components. In particular, the projected component goes through certain activation function and then a linear mapping before merging with the considered token. Conceptually speaking, the neural block for the projected component can be viewed as a two-layer feedforward network (FFN) within the new attention block. It is also noted that standard attention captures the token correlation via the inner-product matrix $QK^T$. We propose to introduce an additional inner-product matrix $ZZ^T$ to $QK^T$ to capture richer token correlation. We refer to the new module as Belief2-Attention. It can be easily shown that Belief2-Attention is more expressive than standard Attention. We then verify the effectiveness of Belief2-Attention for vision tasks of image classification and segmentation.
- Abstract(参考訳): 近年、Belief-Attention \cite{Guoqiang25BeliefAttention} が提案され、まず最初に、元の$V$ベクトルに対して$V$ベクトルのソフトマックスに基づく重み付き和の直交射影を行い、次に、垂直成分をTransformer の残留信号として、性能改善のために取り込む。
本稿では、まず、投影された部品がトークン相関に関する情報を伝達していることを示すアブレーション研究を行うが、無視すべきではない。
次に、垂直成分と射影成分の両方を用いて、Belief-Attentionを拡張することを提案する。
特に、投影されたコンポーネントは特定のアクティベーション関数を通過し、その後、考慮されたトークンとマージする前に線形マッピングを行う。
概念的には、投射されたコンポーネントのニューラルブロックは、新しいアテンションブロック内の2層フィードフォワードネットワーク(FFN)と見なすことができる。
また、標準の注意は内積行列$QK^T$を介してトークン相関を捉えることにも注意が必要である。
よりリッチなトークン相関を捉えるために、内積行列$ZZ^T$を$QK^T$に導入することを提案する。
新しいモジュールを Belief2-Attention と呼ぶ。
Belief2-Attention は標準の Attention よりも表現力が高いことが容易に示せる。
次に,画像分類とセグメンテーションの視覚タスクにおけるBelief2-Attentionの有効性を検証する。
関連論文リスト
- OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning [24.164883144694656]
OccamTokenは、絶対トークンランキングを登録された相対的エビデンステストに置き換える、トレーニング不要のフレームワークである。
我々はOccamTokenが、追加のトレーニングなしで精度と効率のトレードオフを継続的に改善していることを示します。
論文 参考訳(メタデータ) (2026-05-28T09:20:47Z) - IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models [14.898443090114142]
大きな視覚言語モデルでは、画像とビデオの理解タスク間で顕著なパフォーマンスを示すが、その計算コストは視覚トークンの数とともに急速に増加する。
既存のトークンプルーニング手法は、内部の注意機構を見越しながら、経験的アプローチを通じてこの問題を軽減する。
本稿では,注意の両形態の観点から,新しい学習自由トークン刈取フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T11:23:16Z) - Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。
このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。
提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文 参考訳(メタデータ) (2025-04-18T15:36:28Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Discriminative Co-Saliency and Background Mining Transformer for
Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。
我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-30T15:56:47Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。