論文の概要: On the Runway Cascade of Transformers for Language Modeling
- arxiv url: http://arxiv.org/abs/2601.14522v1
- Date: Tue, 20 Jan 2026 22:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.173407
- Title: On the Runway Cascade of Transformers for Language Modeling
- Title(参考訳): 言語モデリングのための変圧器の滑走路カスケードについて
- Authors: Hunjae Lee, Corey Clark,
- Abstract要約: デコーダのみ(因果)変換器では、因果マスキングによって生成された計算グラフは、中間トークンによって形成された直接パスの注意と間接パスの両方を通して情報をルーティングする。
この2つの情報伝達モードの相違により, 因果変換器の故障モードが悪化する可能性が示唆された。
本稿では,各トークンの直接パス注意に滑走路コンテキストを直接組み込む方法として,滑走路認識再配線を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decoder-only (causal) transformers, the computation graph created by causal masking routes information through both direct-path attention and indirect paths formed by intermediate tokens. We denote these indirect paths between token pairs as their runways. We argue that certain failure modes of causal transformers as observed by a growing body of recent works are likely exacerbated by a misalignment between these two information propagation modes. We formalize runway cascade as a phenomenon whereby this misalignment results in redundancies and irrelevant information cascading to token representations despite adequately learned attention patterns. As a solution, we propose runway-aware rewiring as a more explicit way of incorporating runway context directly into each token's direct-path attention. This mechanism re-wires the attention pattern for each token based on a summary of its runway landscape, enabling awareness of accumulating representational influences and allowing for more balanced information propagation. Our proposed methodology introduces no additional parameters and can seamlessly be integrated into standard attention mechanism. Empirically, our rewired transformer results in steady improvements in general language modeling as well as noticeably stronger information retrieval and extrapolation abilities compared to standard transformers.
- Abstract(参考訳): デコーダのみ(因果)変換器では、因果マスキングによって生成された計算グラフは、中間トークンによって形成された直接パスの注意と間接パスの両方を通して情報をルーティングする。
トークンペア間のこれらの間接パスを滑走路として表現する。
この2つの情報伝達モードのミスアライメントにより,最近の研究で見られる因果変圧器の故障モードが悪化する可能性が示唆された。
適切に学習された注意パターンにもかかわらず、滑走路のカスケードを形式化し、このミスアライメントが冗長性とトークン表現に関連のない情報をもたらす現象とする。
解決策として、各トークンの直接パス注意に直接ランウェイコンテキストを組み込むための、より明示的な方法として、ランウェイ対応リウィリングを提案する。
この機構は、各トークンの注意パターンを滑走路の景観の要約に基づいて再配線し、表現的影響を蓄積し、よりバランスの取れた情報伝達を可能にする。
提案手法は追加パラメータを導入せず,標準アテンション機構にシームレスに統合することができる。
経験的に,本変換器は一般的な言語モデルの改良とともに,標準変換器に比べて顕著に強力な情報検索と外挿能力を実現している。
関連論文リスト
- RetroMotion: Retrocausal Motion Forecasting Models are Instructable [11.883714030537028]
本研究では,情報の流れの逆因性を含む動作予測のためのマルチタスク学習手法を開発した。
本手法はArgoverse 2データセットによく当てはまる。
実験の結果,運動予測の定期的な訓練は,目標に基づく指示に従う能力に繋がることがわかった。
論文 参考訳(メタデータ) (2025-05-26T18:05:59Z) - Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer [16.97186100288621]
視覚変換器は、領域を変換トークンとして表現し、注意重みを通してそれらを統合することによって視覚情報を抽出する。
既存のポストホックな説明法は単にこれらの注意重みを考慮し、変換されたトークンから重要な情報を無視するだけである。
本稿では,トークン変換効果の測定を利用したポストホックな説明手法であるTokenTMを提案する。
論文 参考訳(メタデータ) (2024-03-21T16:52:27Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - End-to-end Lane Shape Prediction with Transformers [13.103463647059634]
車線検出は、車両の車線離脱警告と適応クルーズ制御に広く用いられている。
レーン形状モデルのパラメータを直接出力するエンドツーエンド手法を提案する。
提案手法はTuSimpleベンチマークで検証され,最も軽量なモデルサイズと高速な速度で最先端の精度を示す。
論文 参考訳(メタデータ) (2020-11-09T07:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。