論文の概要: Why Any-Order Autoregressive Models Need Two-Stream Attention: A Structural-Semantic Tradeoff
- arxiv url: http://arxiv.org/abs/2602.16092v1
- Date: Tue, 17 Feb 2026 23:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.470157
- Title: Why Any-Order Autoregressive Models Need Two-Stream Attention: A Structural-Semantic Tradeoff
- Title(参考訳): 任意の順序の自己回帰モデルに2ストリームの注意が必要な理由:構造的セマンティックなトレードオフ
- Authors: Patrick Pynadath, Ruqi Zhang,
- Abstract要約: 我々は、2ストリームの注意が、任意の順序生成においてより微妙な役割を果たすかもしれないと論じている。
本稿では,目標位置情報を提供する回転位置埋め込みの修正であるデカップリングRoPEを提案する。
- 参考スコア(独自算出の注目度): 25.408128955753313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any-order autoregressive models (AO-ARMs) offer a promising path toward efficient masked diffusion by enabling native key-value caching, but competitive performance has so far required two-stream attention, typically motivated as a means of decoupling token content from position. In this work, we argue that two-stream attention may be serving a more subtle role. We identify a structural-semantic tradeoff in any-order generation: the hidden representation at each step must simultaneously attend to semantically informative tokens for prediction and structurally recent tokens for summarization, objectives that compete for attention capacity in a single stream but can specialize across two streams. To isolate this tradeoff from position-content separation, we propose Decoupled RoPE, a modification to rotary position embeddings that provides target position information without revealing target content. Decoupled RoPE performs competitively at short sequence lengths--where semantic and structural proximity coincide--but degrades as sequence length increases and the two orderings diverge. These results suggest that the success of two-stream attention stems not merely from separating position from content, but from circumventing the deeper structural-semantic tradeoff inherent to any-order generation.
- Abstract(参考訳): 任意の順序自己回帰モデル(AO-ARM)は、ネイティブなキーバリューキャッシングを有効にすることで、効率的なマスク付き拡散への有望な道を提供するが、競争性能には2ストリームの注意が必要であり、通常はトークンコンテンツを位置から切り離す手段として動機付けられている。
この研究では、二流の注意がより微妙な役割を担っているかもしれないと論じる。
それぞれのステップで隠された表現は、予測のための意味的情報的トークンと、要約のための構造的最新のトークンと、単一のストリームで注意力に競合するが、2つのストリームをまたいで専門化できる目的とを同時に対応させなければならない。
位置コンテンツ分離からこのトレードオフを分離するために,ターゲット内容を明らかにすることなく目標位置情報を提供する回転位置埋め込みを改良したDecoupled RoPEを提案する。
デカップリングされたRoPEは、セマンティックと構造的近接が一致した短いシーケンス長で競合的に実行されるが、シーケンス長が増加し、2つの順序が分岐するにつれて劣化する。
これらの結果から,二流注意の成功は,内容物からの位置を分離することだけでなく,任意の順序生成に固有の深い構造・意味的トレードオフを回避することに起因することが示唆された。
関連論文リスト
- Cross-Attention is Half Explanation in Speech-to-Text Models [31.16674879591289]
クロスアテンションはエンコーダ・デコーダアーキテクチャのコアメカニズムであり、音声テキスト処理(S2T)を含む多くの分野に普及している。
本分析では,単言語,多言語,単一タスク,マルチタスクのモデルを複数スケールで分析し,注意点が塩分濃度に基づく説明と強く一致していることを示す。
また、クロスアテンションは入力関係の約50%しか捕捉せず、最良の場合、デコーダがエンコーダの表現にどのように出席するかを部分的に反映している。
論文 参考訳(メタデータ) (2025-09-22T16:49:26Z) - CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction [42.92011330807996]
$textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
論文 参考訳(メタデータ) (2025-08-05T17:30:34Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。