Fugu-MT 論文翻訳(概要): Hopscotch: Discovering and Skipping Redundancies in Language Models

論文の概要: Hopscotch: Discovering and Skipping Redundancies in Language Models

arxiv url: http://arxiv.org/abs/2506.03303v1
Date: Tue, 03 Jun 2025 18:43:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.007405
Title: Hopscotch: Discovering and Skipping Redundancies in Language Models
Title（参考訳）: Hopscotch: 言語モデルにおける冗長性の発見とスキッピング
Authors: Mustafa Eyceoz, Nikhil Shivakumar Nayak, Hao Wang, Ligong Han, Akash Srivastava,
Abstract要約: ホップスコッチ(Hopscotch)は,タスクに最小限のコントリビューションでアテンションブロックを識別・スキップし,出力品質の維持に適応する手法である。 Hopscotchは、4つのアテンションブロックをスキップした後でもパフォーマンスが2%以下に低下する。
参考スコア（独自算出の注目度）: 11.957267616335479
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern causal language models stack many attention blocks to improve performance, but not all blocks are necessary for every task. We propose Hopscotch, a simple yet effective method that identifies and skips attention blocks with least contributions to a task and adapts to preserve output quality. Hopscotch jointly optimizes which blocks to skip and how to scale the outputs of the remaining layers. By introducing lightweight, trainable scaling parameters to attention and MLP blocks, it mitigates distribution shifts in hidden states caused by removing attention blocks. Hopscotch does not modify model weights or require access to pretraining or instruction-tuning data, and is compatible with existing model compression techniques. When applied to $\texttt{Llama-3.1-8B}$ and $\texttt{Qwen2.5-7B}$, Hopscotch achieves less than a 2% drop in performance even after skipping four attention blocks.
Abstract（参考訳）: 現代の因果的言語モデルは、パフォーマンスを改善するために多くの注意ブロックを積み重ねているが、すべてのタスクにすべてのブロックが必要なわけではない。ホップスコッチ(Hopscotch)は,タスクに最小限のコントリビューションを伴って注目ブロックを識別・スキップし,出力品質の維持に適応する,シンプルで効果的な手法である。 Hopscotchは、スキップするブロックと残りのレイヤのアウトプットのスケール方法を共同で最適化する。軽量でトレーニング可能なスケーリングパラメータをアテンションブロックやMLPブロックに導入することにより、アテンションブロックの除去による隠れ状態の分散シフトを軽減する。 Hopscotchはモデルの重みを変更したり、事前トレーニングや命令調整データにアクセスする必要はなく、既存のモデル圧縮技術と互換性がある。 $\texttt{Llama-3.1-8B}$と$\texttt{Qwen2.5-7B}$に適用されると、Hopscotchは4つのアテンションブロックをスキップした後でもパフォーマンスが2%低下する。

関連論文リスト

$\ abla$NABLA: Neighborhood Adaptive Block-Level Attention [3.566419648777424]
NABLA(Norborhood Adaptive Block-Level Attention Mechanism)を提案する。 NABLAは、ブロックワイズアテンションと適応パリシティ駆動しきい値を活用することにより、生成品質を維持しながら計算オーバーヘッドを低減する。実験の結果、NABLAはベースラインに比べて最大2.7倍高速なトレーニングと推論を実現している。
論文参考訳（メタデータ） (2025-07-17T21:36:36Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文参考訳（メタデータ） (2025-05-16T23:29:47Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは入力埋め込み層を拡張し、言語モデルの性能を向上させる新しい方法である。埋め込みは各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。 SCONEは2つの新しいスケーリング戦略を実現する。$n$-gramの埋め込み数を増やし、それらを学ぶために使用するモデルをスケーリングする。
論文参考訳（メタデータ） (2025-02-03T18:59:32Z)
BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。 Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
Block-Attention for Efficient Prefilling [6.916657784681611]
本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-attentionを紹介する。各パスをブロックとして定義することで、ブロックアテンションは、これまで見てきたパスのKV状態の再利用を可能にします。ブロックアテンションは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を極端に低くする。
論文参考訳（メタデータ） (2024-09-14T02:34:26Z)
BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T05:45:12Z)
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。 MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文参考訳（メタデータ） (2024-06-21T06:58:37Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。