論文の概要: Attention (as Discrete-Time Markov) Chains
- arxiv url: http://arxiv.org/abs/2507.17657v1
- Date: Wed, 23 Jul 2025 16:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.079569
- Title: Attention (as Discrete-Time Markov) Chains
- Title(参考訳): 注意(離散時間マルコフ)チェーン
- Authors: Yotam Erel, Olaf Dünkel, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt, Amit H. Bermano,
- Abstract要約: 注意行列の新たな解釈を離散時間マルコフ連鎖として導入する。
我々の主な観察は、意味的に類似した領域に対応するトークンが準安定状態の集合を形成することである。
これらの軽量ツールを用いて、最先端のゼロショットセグメンテーションを実証する。
- 参考スコア(独自算出の注目度): 70.46604474584181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new interpretation of the attention matrix as a discrete-time Markov chain. Our interpretation sheds light on common operations involving attention scores such as selection, summation, and averaging in a unified framework. It further extends them by considering indirect attention, propagated through the Markov chain, as opposed to previous studies that only model immediate effects. Our main observation is that tokens corresponding to semantically similar regions form a set of metastable states, where the attention clusters, while noisy attention scores tend to disperse. Metastable states and their prevalence can be easily computed through simple matrix multiplication and eigenanalysis, respectively. Using these lightweight tools, we demonstrate state-of-the-art zero-shot segmentation. Lastly, we define TokenRank -- the steady state vector of the Markov chain, which measures global token importance. We demonstrate that using it brings improvements in unconditional image generation. We believe our framework offers a fresh view of how tokens are being attended in modern visual transformers.
- Abstract(参考訳): 注意行列の新しい解釈を離散時間マルコフ連鎖として導入する。
我々の解釈は、統合されたフレームワークにおける選択、要約、平均化といった注意点を含む共通の操作に光を当てている。
直接効果をモデル化する以前の研究とは対照的に、マルコフ連鎖を通じて伝播する間接的な注意を考慮し、それらをさらに拡張する。
我々の主な観察は、意味的に類似した領域に対応するトークンが準安定状態の集合を形成し、そこでは注目が集い、ノイズの多い注意スコアが分散する傾向があることである。
準安定状態とその有病率は、それぞれ単純な行列乗算と固有解析によって容易に計算できる。
これらの軽量ツールを用いて、最先端のゼロショットセグメンテーションを実証する。
最後に、グローバルトークンの重要性を測定するマルコフ連鎖の定常状態ベクトルであるTokenRankを定義する。
非条件画像生成に改良がもたらされることを実証する。
当社のフレームワークは,現代的なビジュアルトランスフォーマーにおけるトークンの参加方法に関する,新たなビューを提供しています。
関連論文リスト
- Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation [1.878433493707693]
インタラクティブなポイントプロンプトベースの画像の最近の進歩は、高品質なセマンティックラベルを得るための手作業を大幅に削減する。
本稿では, 安定拡散の自己注意のみに基づく, 教師なし, トレーニング不要な新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:29:59Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers [41.82477691012942]
本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。
我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
論文 参考訳(メタデータ) (2024-02-21T03:51:34Z) - Causal structure learning with momentum: Sampling distributions over Markov Equivalence Classes of DAGs [4.811183825795439]
我々はDAGのクラス上の確率分布を目標とする可逆的連続時間マルコフ連鎖を考案する。
我々はGES演算子のリスト、カウント、一様サンプリング、および可能な動作の適用のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T12:10:51Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。