論文の概要: Masked Mixers for Language Generation and Retrieval
- arxiv url: http://arxiv.org/abs/2409.01482v1
- Date: Mon, 2 Sep 2024 22:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:35:27.576540
- Title: Masked Mixers for Language Generation and Retrieval
- Title(参考訳): 言語生成と検索のためのマスケミキサー
- Authors: Benjamin L. Badger,
- Abstract要約: トランスにおける入力表現の精度は低いが,マスクミキサーではより正確に表現できる。
TinyStoriesに適用されたマスク付きミキサーは、初期のトランスフォーマー実装よりも効率的に因果言語タスクを学習する。
本稿では,既存の生成モデル埋め込みに基づく検索モデルの効率的なトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms that confer selective focus on a strict subset of input elements are nearly ubiquitous in language models today. We posit there to be downside to the use of attention: most information present in the input is necessarily lost. In support of this idea we observe poor input representation accuracy in transformers, but find more accurate representation in what we term masked mixers which replace self-attention with masked convolutions. Applied to TinyStories the masked mixer learns causal language tasks more efficiently than early transformer implementations and somewhat less efficiently than optimized, current implementations. The most efficient learning algorithm observed for this dataset is a transformer-masked mixer hybrid, suggesting that these models learn in an orthogonal manner. We hypothesized that the information loss exhibited by transformers would be much more detrimental to retrieval than generation, and to test this we introduce an efficient training approach for retrieval models based on existing generative model embeddings. With this method, embeddings from masked mixers are found to result in far better summary-to-story retrieval compared to embeddings from transformers.
- Abstract(参考訳): 入力要素の厳密な部分集合に選択的に焦点をあてる注意機構は、今日の言語モデルにおいてほぼどこでも見られる。
私たちは、注意力の使用のマイナス面として、入力に存在するほとんどの情報が必然的に失われていると仮定します。
この考え方を支持するために、変換器における入力表現の精度が低いが、自己認識をマスク畳み込みに置き換えるマスクミキサーと呼ばれるものにおいて、より正確な表現を求める。
TinyStoriesに適用されたマスク付きミキサーは、初期のトランスフォーマー実装よりも因果言語タスクを効率よく学習し、最適化された現在の実装よりも若干効率が低い。
このデータセットで観測される最も効率的な学習アルゴリズムはトランスフォーマー・マザード・ミキサーハイブリッドであり、これらのモデルが直交的に学習することを示唆している。
変換器が提示する情報損失は, 生成よりも検索に負担がかかると仮定し, 既存の生成モデル埋め込みに基づく検索モデルの効率的なトレーニング手法を提案する。
この方法により, マスクミキサーの埋め込みは, 変圧器の埋め込みに比べて, より優れた要約から物語の検索をもたらすことがわかった。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems [10.585040856070941]
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
論文 参考訳(メタデータ) (2023-01-23T04:24:26Z) - AtMan: Understanding Transformer Predictions Through Memory Efficient
Attention Manipulation [25.577132500246886]
我々はAtManについて紹介する。AtManは、生成トランスフォーマーモデルの説明を、ほとんど余分なコストで提供する。
AtManは、変換器の注意機構を操作して、入力の関連マップを生成するモード依存摂動法である。
テキストと画像テキストのベンチマーク実験により、AtManはいくつかのメトリクスで現在の最先端の勾配に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-19T15:01:00Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。