論文の概要: OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
- arxiv url: http://arxiv.org/abs/2507.03865v1
- Date: Sat, 05 Jul 2025 02:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.91136
- Title: OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
- Title(参考訳): OrthoRank: 効率的なLCM推論のためのシンクトケン直交によるトークン選択
- Authors: Seungjun Shin, Jaehoon Oh, Dokwan Oh,
- Abstract要約: 近年の研究では、セマンティックな役割が限られているにもかかわらず、不当に高い注目を集めているシンクトークンが明らかにされている。
私たちはまず、シンクトークンと他のトークンとの関係を拡大し、その類似性を隠れた状態で探究する。
そこで本稿では,OrthoRankと呼ばれる動的トークン選択手法を提案する。
- 参考スコア(独自算出の注目度): 9.73180898820304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms are central to the success of large language models (LLMs), enabling them to capture intricate token dependencies and implicitly assign importance to each token. Recent studies have revealed the sink token, which receives disproportionately high attention despite their limited semantic role. In this paper, we first expand the relationship between the sink token and other tokens, moving beyond attention to explore their similarity in hidden states, considering the layer depth. We observe that as the layers get deeper, the cosine similarity between the normalized hidden states of the sink token and those of other tokens increases, and that the normalized hidden states of the sink token exhibit negligible changes. These imply that other tokens consistently are directed toward the sink token throughout the layers. Next, we propose a dynamic token selection method, called OrthoRank, using these findings to select important tokens. Specifically, in a certain layer, we define token importance by the speed at which the token moves toward the sink token. This is converted into orthogonality with the sink token, meaning that tokens that are more orthogonal to the sink token are assigned greater importance. Finally, through extensive experiments, we demonstrated that our method results in lower perplexity and higher zero-shot accuracy compared to layer pruning methods at the same sparsity ratio with comparable throughput, while also achieving superior performance on LongBench.
- Abstract(参考訳): 注意機構は、大規模言語モデル(LLM)の成功の中心であり、複雑なトークン依存関係をキャプチャし、各トークンに暗黙的に重要性を割り当てることを可能にする。
近年の研究では、セマンティックな役割が限られているにもかかわらず、不当に高い注目を集めているシンクトークンが明らかにされている。
本稿では,まず,沈み込みトークンと他のトークンとの関係を拡大し,層深度を考慮した隠蔽状態における類似性を探究する。
層が深くなるにつれて、シンクトークンの正規化隠蔽状態と他のトークンとのコサイン類似性が増大し、シンクトークンの正規化隠蔽状態が無視できる変化を示すことが観察された。
これらのことは、他のトークンが一貫して、レイヤ全体にわたってシンクトークンに向けられていることを暗示している。
次に,OrthoRankと呼ばれる動的トークン選択手法を提案する。
具体的には,トークンがシンクトークンに向かって移動する速度によって,トークンの重要性を定義する。
これはシンクトークンとの直交性に変換されるため、シンクトークンと直交するトークンがより重要になる。
最後に,本手法を広範に実験した結果,LongBench 上での処理性能も向上し,高いパープレキシティと高いゼロショット精度が得られた。
関連論文リスト
- Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - TokenButler: Token Importance is Predictable [8.514853311344458]
大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。
以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。
TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
論文 参考訳(メタデータ) (2025-03-10T16:41:14Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - Predicting Token Impact Towards Efficient Vision Transformer [9.349427774462365]
自己注意の前に無関係なトークンを減らすためのトークンフィルタリングは、効率的な視覚変換を実現するための簡単な方法である。
これは、機能選択の観点からトークンフィルタリングを閲覧する最初の作業であり、一度マスクされた損失をどの程度変えられるかに応じてトークンの重要性を重み付けします。
提案手法は, バックボーンを微調整により最適化した後, 光重み付きモデルに効率よくアプローチする方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T07:44:16Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。