論文の概要: Extended Mind Transformers
- arxiv url: http://arxiv.org/abs/2406.02332v1
- Date: Tue, 4 Jun 2024 14:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:00:43.802052
- Title: Extended Mind Transformers
- Title(参考訳): 拡張マインドトランス
- Authors: Phoebe Klett, Thomas Ahle,
- Abstract要約: ロングインプットは、推論時に情報を記憶するボトルネックになる。
微調整の必要性など,元の手法の欠点の多くを修正することが可能であることを示す。
我々は、新しい反ファクトの長距離検索ベンチマークをオープンソース化し、拡張マインドトランスフォーマーが、現在の最先端の最先端を平均6%上回っていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models demonstrate general intelligence and common sense, but long inputs quickly become a bottleneck for memorizing information at inference time. We resurface a simple method, Memorizing Transformers (Wu et al., 2022), that gives the model access to a bank of pre-computed memories. We show that it is possible to fix many of the shortcomings of the original method, such as the need for fine-tuning, by critically assessing how positional encodings should be updated for the keys and values retrieved. This intuitive method uses the model's own key/query system to select and attend to the most relevant memories at each generation step, rather than using external embeddings. We demonstrate the importance of external information being retrieved in a majority of decoder layers, contrary to previous work. We open source a new counterfactual long-range retrieval benchmark, and show that Extended Mind Transformers outperform today's state of the art by 6% on average.
- Abstract(参考訳): 事前学習された言語モデルは、一般的な知性と常識を示すが、ロングインプットは、推論時に情報を記憶するためのボトルネックとなる。
我々は,事前計算された記憶のバンクにモデルがアクセスできるようにする単純な方法であるMemorizing Transformers (Wu et al , 2022)を再検討した。
提案手法では,キーや値に対する位置エンコーディングをどのように更新すべきかを批判的に評価することにより,微調整の必要性など,元の手法の欠点の多くを修正することができることを示す。
この直感的な方法は、モデル独自のキー/クエリシステムを使用して、外部埋め込みを使用するのではなく、各生成ステップで最も関連性の高いメモリを選択し、参加する。
従来の処理とは対照的に,デコーダ層の大部分で検索される外部情報の重要さを実証する。
われわれは、新しい反ファクトの長距離検索ベンチマークをオープンソース化し、Extended Mind Transformersが、現在最先端の最先端を平均6%上回っていることを示す。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。
本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。
本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文 参考訳(メタデータ) (2022-10-07T14:45:31Z) - Mention Memory: incorporating textual knowledge into Transformers
through entity mention attention [21.361822569279003]
本稿では,大規模テキストコーパスの半パラメトリック表現を,事実知識の源泉としてトランスフォーマーモデルに統合することを提案する。
提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。
ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで高いパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-10-12T17:19:05Z) - Normal Learning in Videos with Attention Prototype Network [6.842621605295172]
本稿では,通常の潜伏空間をプロトタイプとしてリアルタイムに符号化する自己注意型プロトタイプユニット(APU)を提案する。
さらに,我々の背骨に循環的注意機構を導入し,新たな特徴抽出学習者,すなわち循環的注意ユニット(CAU)を形成する。
論文 参考訳(メタデータ) (2021-08-25T05:51:58Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。