論文の概要: Surgical Repair of Collapsed Attention Heads in ALiBi Transformers
- arxiv url: http://arxiv.org/abs/2603.09616v1
- Date: Tue, 10 Mar 2026 12:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.31917
- Title: Surgical Repair of Collapsed Attention Heads in ALiBi Transformers
- Title(参考訳): ALiBi変圧器における脱落した留置頭部の手術成績
- Authors: Palmer Schallon,
- Abstract要約: 変換言語モデルのBLOOMファミリーにおいて,系統的な注意崩壊病理を同定する。
ALiBiの位置エンコーディングは31-44%のアテンションヘッドを、ほぼ完全にシーケンス開始トークンに出席させる。
ゼロ出力プロジェクションを用いた標的Q/K/V再初期化について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a systematic attention collapse pathology in the BLOOM family of transformer language models, where ALiBi positional encoding causes 31-44% of attention heads to attend almost entirely to the beginning-of-sequence token. The collapse follows a predictable pattern across four model scales (560M to 7.1B parameters), concentrating in head indices where ALiBi's slope schedule imposes the steepest distance penalties. We introduce surgical reinitialization: targeted Q/K/V reinitialization with zeroed output projections and gradient-masked freezing of all non-surgical parameters. Applied to BLOOM-1b7 on a single consumer GPU, the technique recovers 98.7% operational head capacity (242 to 379 of 384 heads) in two passes. A controlled comparison with C4 training data confirms that reinitialization -- not corpus content -- drives recovery, and reveals two distinct post-surgical phenomena: early global functional redistribution that improves the model, and late local degradation that accumulates under noisy training signal. An extended experiment reinitializing mostly-healthy heads alongside collapsed ones produces a model that transiently outperforms stock BLOOM-1b7 by 25% on training perplexity (12.70 vs. 16.99), suggesting that pretrained attention configurations are suboptimal local minima. Code, checkpoints, and diagnostic tools are released as open-source software.
- Abstract(参考訳): 変換言語モデルBLOOMファミリーでは,ALiBiの位置エンコーディングが31~44%のアテンションヘッドをほぼ完全にシーケンス開始トークンに出席させるという,系統的なアテンション崩壊病理を同定する。
この崩壊は4つのモデルスケール(560Mから7.1Bパラメータ)にわたる予測可能なパターンに従っており、ALiBiの傾斜スケジュールが最も急な距離のペナルティを課すヘッドインデックスに集中している。
ゼロ出力プロジェクションによる標的Q/K/Vリチベーションと,非外科的パラメータの勾配マズーク凍結を併用した外科的再チベーションを導入する。
BLOOM-1b7を1つのコンシューマGPUで適用すると、98.7%の運用ヘッド容量(384ヘッドの242から379)を2回のパスで回復する。
C4トレーニングデータとの制御された比較では、コーパスの内容ではなく再初期化が回復を加速し、モデルを改善する初期のグローバルな機能的再分配と、ノイズの多いトレーニング信号の下で蓄積される遅い局所的な劣化という2つの異なる後外科的現象を明らかにしている。
ほとんど健康な頭部を崩壊した頭部と共に再活性化する実験は、トレーニングの難易度(12.70対16.99)において、ストックBLOOM-1b7を過渡的に25%上回るモデルを生み出し、事前訓練された注意配置が最適な局所最小値であることを示している。
コード、チェックポイント、診断ツールがオープンソースソフトウェアとしてリリースされている。
関連論文リスト
- A Quantization-Aware Training Based Lightweight Method for Neural Distinguishers [4.751864584128287]
2019年、ゴアはディープニューラルネットワークの微分暗号解析への応用を開拓した。
本研究では,量子化学習に基づく軽量なニューラル差別化手法を提案する。
論文 参考訳(メタデータ) (2026-03-06T00:52:49Z) - SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video [14.263054454077272]
本稿では,Go Zone境界ボックスを付加したラパロスコープフレームのベンチマークであるResGoを紹介する。
次に,マルチターン位相-then-goアーキテクチャを用いてRLHFを最適化したSurGo-R1を提案する。
目に見えない手順では、SurGo-R1は76.6%の位相精度、32.7 mIoU、54.8%のハードコア精度を達成している。
論文 参考訳(メタデータ) (2026-02-25T09:11:45Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Hemorica: A Comprehensive CT Scan Dataset for Automated Brain Hemorrhage Classification, Segmentation, and Detection [0.749500254646884]
Hemoricaは、2012年から2024年の間に取得された372個の頭部CT検査の公開コレクションである。
ICHサブタイプ(EPH)、サブデューラル(SDH)、サブアラキノイド(SAH)、パーレンキマル(IPH)の5つのサブタイプ(EPH)に対して、各スキャンは徹底的に注釈付けされている。
Hemoricaは、マルチタスクとカリキュラム学習をサポートする統一されたきめ細かいベンチマークを提供する。
論文 参考訳(メタデータ) (2025-09-26T23:09:41Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - NeRF-based CBCT Reconstruction needs Normalization and Initialization [53.58395475423445]
NeRFベースの手法は、ハッシュエンコーダとニューラルネットワークという2つの主要なコンポーネント間の局所的な訓練ミスマッチに悩まされる。
特徴整合性を高め、ミスマッチを緩和する正規化ハッシュを導入する。
ニューラルネットワークは早期トレーニング中に安定性が向上し、より高速な収束と再構築性能が向上する。
論文 参考訳(メタデータ) (2025-06-24T16:01:45Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - Training-free Ultra Small Model for Universal Sparse Reconstruction in Compressed Sensing [39.36305648162564]
本稿では,係数学習(CL)と呼ばれる超小型人工ニューラルモデルを提案する。
CLは、従来の反復的手法の一般性と解釈性を継承しつつ、トレーニング不要で迅速なスパース再構築を可能にする。
代表的反復法と比較して、CLOMPは大規模データの効率を100から1000倍に改善する。
論文 参考訳(メタデータ) (2025-01-20T16:50:59Z) - Multilabel 12-Lead Electrocardiogram Classification Using Gradient
Boosting Tree Ensemble [64.29529357862955]
我々は,心電図の診断を分類するために,形態や信号処理機能に適合した勾配強化木のアンサンブルを用いたアルゴリズムを構築した。
各リードについて、心拍変動、PQRSTテンプレート形状、全信号波形から特徴を導出する。
各クラスに属するECGインスタンスの確率を予測するため、全12項目の特徴と合わせて、勾配を増す決定ツリーの集合に適合する。
論文 参考訳(メタデータ) (2020-10-21T18:11:36Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。