論文の概要: Hopscotch: Discovering and Skipping Redundancies in Language Models
- arxiv url: http://arxiv.org/abs/2506.03303v1
- Date: Tue, 03 Jun 2025 18:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.007405
- Title: Hopscotch: Discovering and Skipping Redundancies in Language Models
- Title(参考訳): Hopscotch: 言語モデルにおける冗長性の発見とスキッピング
- Authors: Mustafa Eyceoz, Nikhil Shivakumar Nayak, Hao Wang, Ligong Han, Akash Srivastava,
- Abstract要約: ホップスコッチ(Hopscotch)は,タスクに最小限のコントリビューションでアテンションブロックを識別・スキップし,出力品質の維持に適応する手法である。
Hopscotchは、4つのアテンションブロックをスキップした後でもパフォーマンスが2%以下に低下する。
- 参考スコア(独自算出の注目度): 11.957267616335479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern causal language models stack many attention blocks to improve performance, but not all blocks are necessary for every task. We propose Hopscotch, a simple yet effective method that identifies and skips attention blocks with least contributions to a task and adapts to preserve output quality. Hopscotch jointly optimizes which blocks to skip and how to scale the outputs of the remaining layers. By introducing lightweight, trainable scaling parameters to attention and MLP blocks, it mitigates distribution shifts in hidden states caused by removing attention blocks. Hopscotch does not modify model weights or require access to pretraining or instruction-tuning data, and is compatible with existing model compression techniques. When applied to $\texttt{Llama-3.1-8B}$ and $\texttt{Qwen2.5-7B}$, Hopscotch achieves less than a 2% drop in performance even after skipping four attention blocks.
- Abstract(参考訳): 現代の因果的言語モデルは、パフォーマンスを改善するために多くの注意ブロックを積み重ねているが、すべてのタスクにすべてのブロックが必要なわけではない。
ホップスコッチ(Hopscotch)は,タスクに最小限のコントリビューションを伴って注目ブロックを識別・スキップし,出力品質の維持に適応する,シンプルで効果的な手法である。
Hopscotchは、スキップするブロックと残りのレイヤのアウトプットのスケール方法を共同で最適化する。
軽量でトレーニング可能なスケーリングパラメータをアテンションブロックやMLPブロックに導入することにより、アテンションブロックの除去による隠れ状態の分散シフトを軽減する。
Hopscotchはモデルの重みを変更したり、事前トレーニングや命令調整データにアクセスする必要はなく、既存のモデル圧縮技術と互換性がある。
$\texttt{Llama-3.1-8B}$と$\texttt{Qwen2.5-7B}$に適用されると、Hopscotchは4つのアテンションブロックをスキップした後でもパフォーマンスが2%低下する。
関連論文リスト
- Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:50:34Z) - Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。
本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文 参考訳(メタデータ) (2025-05-16T23:29:47Z) - Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは入力埋め込み層を拡張し、言語モデルの性能を向上させる新しい方法である。
埋め込みは各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
SCONEは2つの新しいスケーリング戦略を実現する。$n$-gramの埋め込み数を増やし、それらを学ぶために使用するモデルをスケーリングする。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Block-Attention for Efficient Prefilling [6.916657784681611]
本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-attentionを紹介する。
各パスをブロックとして定義することで、ブロックアテンションは、これまで見てきたパスのKV状態の再利用を可能にします。
ブロックアテンションは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を極端に低くする。
論文 参考訳(メタデータ) (2024-09-14T02:34:26Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。
MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文 参考訳(メタデータ) (2024-06-21T06:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。