Fugu-MT 論文翻訳(概要): You Do Not Fully Utilize Transformer's Representation Capacity

論文の概要: You Do Not Fully Utilize Transformer's Representation Capacity

arxiv url: http://arxiv.org/abs/2502.09245v2
Date: Wed, 28 May 2025 11:04:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:27.255903
Title: You Do Not Fully Utilize Transformer's Representation Capacity
Title（参考訳）: トランスフォーマーの表現能力をフル活用しない
Authors: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov,
Abstract要約: LIMe(Layer-Integrated Memory)は、階層単位のルーティング重み付けを学習し、以前のすべてのレイヤからの表現を無視可能なオーバーヘッドで統合する軽量な拡張である。 LIMeは一貫して高速収束、FLOPあたりのパープレキシティの低下、および合成タスクの大幅な精度向上を実現している。
参考スコア（独自算出の注目度）: 4.753535328327317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In contrast to RNNs, which compress their history into a single hidden state, Transformers can attend to all past tokens directly. However, standard Transformers rely solely on the hidden state from the previous layer to represent the entire context. We show that this design choice induces representation collapse and degrades performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a lightweight extension that leverages existing key-value buffers and learns per-head, per-layer routing weights to integrate representations from all previous layers with negligible overhead. Through extensive experiments-including language modeling, synthetic reasoning benchmarks, and very deep architectures-LIMe consistently achieves faster convergence, lower perplexity per FLOP, and substantial accuracy improvements on synthetic tasks while preserving higher value-vector entropy and improved token separability. Finally, our analysis of the learned routing weights reveals systematic reuse of both local and long-distance features, demonstrating how LIMe mitigates collapse, unlocks richer representations without increasing hidden-state size, and points to promising directions for future research.
Abstract（参考訳）: 履歴を単一の隠れ状態に圧縮するRNNとは対照的に、Transformerは過去のすべてのトークンに直接参加することができる。しかし、標準のTransformerはコンテキスト全体を表現するために、前のレイヤから隠された状態のみに依存する。この設計選択は表現の崩壊を招き,性能を低下させることを示す。この問題に対処するために、既存のキー値バッファを活用する軽量拡張であるLayer-Integrated Memory (LIMe)を導入し、ヘッド単位のルーティング重みを学習し、以前のすべてのレイヤからの表現を無視可能なオーバーヘッドで統合する。言語モデリング、合成推論ベンチマーク、および非常に深いアーキテクチャを含む広範な実験を通じて、LIMeは、より高速な収束、FLOP毎のパープレキシティの低下、およびより高い値ベクトルエントロピーと改良されたトークン分離性を維持しながら、合成タスクの大幅な精度向上を実現している。最後に、学習した経路重みの解析により、局所的および長距離的特徴の体系的再利用が明らかになり、LIMeが崩壊を緩和し、隠れ状態のサイズを増大させることなくよりリッチな表現を解放し、将来の研究に向けて有望な方向性を示す。

関連論文リスト

Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning [9.730604030100318]
大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。 IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
論文参考訳（メタデータ） (2025-05-22T17:33:49Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。 CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-03T04:23:01Z)
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文参考訳（メタデータ） (2023-11-22T02:23:32Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。線形変換を用いた簡単な鋳造法を提案する。
論文参考訳（メタデータ） (2023-03-16T16:10:16Z)
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。 2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文参考訳（メタデータ） (2022-10-03T15:49:48Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。 ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文参考訳（メタデータ） (2022-01-31T02:12:45Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文参考訳（メタデータ） (2021-08-05T17:51:32Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-03-24T18:01:17Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)
Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文参考訳（メタデータ） (2020-02-21T16:37:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。