Fugu-MT 論文翻訳(概要): Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction

論文の概要: Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction

arxiv url: http://arxiv.org/abs/2601.11667v1
Date: Fri, 16 Jan 2026 02:01:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.269997
Title: Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction
Title（参考訳）: Distill-then-Replace:効率的なタスク特化ハイブリッドアテンションモデルの構築
Authors: Xiaojie Xia, Huigang Zhang, Chaoliang Zhong, Jun Sun, Yusuke Oishi,
Abstract要約: トランスフォーマーアーキテクチャは、密度の高いフルアテンションによって最先端の精度を提供するが、その2次時間とメモリの複雑さは、実用的なデプロイメントを制限している。線形アテンションメカニズムは、線形またはニア線形スケーリングを提供するが、しばしば性能劣化を引き起こす。我々は,対象タスクの検証性能を監視しながら,すべての注意ブロックを線形に置き換える,欲求層置換戦略を導入する。これにより、コストのかかる再トレーニングやニューラルアーキテクチャ検索を必要とせず、単一の効率的なパスでタスク固有のハイブリッドモデルが得られ、さまざまな下流タスクのために事前トレーニングされたフルアテンションバックボーンに適用できる。
参考スコア（独自算出の注目度）: 3.9660062354591754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer architectures deliver state-of-the-art accuracy via dense full-attention, but their quadratic time and memory complexity with respect to sequence length limits practical deployment. Linear attention mechanisms offer linear or near-linear scaling yet often incur performance degradation. Hybrid models that integrate full and linear attention layers promise a balance between efficiency and expressiveness, but face two major challenges: training such hybrid models from scratch is computationally expensive, and manually designing the optimal placement of attention types is highly nontrivial. We address both issues by first transferring weights from the pretrained full-attention modules to its linear attention counterparts through blockwise local distillation, and second, introducing a greedy layer replacement strategy that iteratively substitutes full attention blocks with linear ones while monitoring validation performance on the target task. This yields a task-specific hybrid model in a single efficient pass, without costly re-training or neural architecture search, and can be applied to any pretrained full-attention backbone for diverse downstream tasks.
Abstract（参考訳）: トランスフォーマーアーキテクチャは、密度の高いフルアテンションによって最先端の精度を提供するが、シーケンス長に関する2次時間とメモリの複雑さは、実用的なデプロイメントを制限している。線形アテンションメカニズムは、線形またはニア線形スケーリングを提供するが、しばしば性能劣化を引き起こす。フルアテンション層とリニアアテンション層を統合したハイブリッドモデルは効率性と表現力のバランスを約束するが、そのようなハイブリッドモデルをスクラッチからトレーニングすることは計算に高価であり、手動でアテンションタイプの配置を設計するのは極めて簡単ではない。そこで,本研究では,まず,事前学習したフルアテンションモジュールから,ブロックワイド局所蒸留によるリニアアテンションモジュールへの重み付け,および第2に,フルアテンションブロックをリニアアテンションブロックに繰り返し置き換えるグレディ層置換戦略を導入し,目標タスクの検証性能を監視しながら,両課題に対処する。これにより、コストのかかる再トレーニングやニューラルアーキテクチャ検索を必要とせず、単一の効率的なパスでタスク固有のハイブリッドモデルが得られ、さまざまな下流タスクのために事前トレーニングされたフルアテンションバックボーンに適用できる。

関連論文リスト

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。 1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文参考訳（メタデータ） (2026-02-12T09:37:05Z)
STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs [23.745366354566315]
LLM(Linearizing Pretrained Large Language Model)は主に層内ハイブリッドアテンション機構に依存している。 LLMを効率的に線形化するための層内ハイブリッド線形化フレームワークSTILLを提案する。
論文参考訳（メタデータ） (2026-02-02T14:49:18Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文参考訳（メタデータ） (2025-11-24T06:20:02Z)
Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods [14.82822709954587]
学習後線形化法は, 事前学習した変換器を線形モデルに効率的に変換する。既存のハイブリッドメソッドは、必然的に線形成分をバイパスする。バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
論文参考訳（メタデータ） (2025-10-07T13:11:13Z)
CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文参考訳（メタデータ） (2024-12-20T17:57:09Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文参考訳（メタデータ） (2023-07-27T16:45:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。