論文の概要: Masked Mixers for Language Generation and Retrieval
- arxiv url: http://arxiv.org/abs/2409.01482v1
- Date: Mon, 2 Sep 2024 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-06 03:35:27.576540
- Title: Masked Mixers for Language Generation and Retrieval
- Title(参考訳): 言語生成と検索のためのマスケミキサー
- Authors: Benjamin L. Badger,
- Abstract要約: トランスにおける入力表現の精度は低いが,マスクミキサーではより正確に表現できる。
TinyStoriesに適用されたマスク付きミキサーは、初期のトランスフォーマー実装よりも効率的に因果言語タスクを学習する。
本稿では,既存の生成モデル埋め込みに基づく検索モデルの効率的なトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms that confer selective focus on a strict subset of input elements are nearly ubiquitous in language models today. We posit there to be downside to the use of attention: most information present in the input is necessarily lost. In support of this idea we observe poor input representation accuracy in transformers, but find more accurate representation in what we term masked mixers which replace self-attention with masked convolutions. Applied to TinyStories the masked mixer learns causal language tasks more efficiently than early transformer implementations and somewhat less efficiently than optimized, current implementations. The most efficient learning algorithm observed for this dataset is a transformer-masked mixer hybrid, suggesting that these models learn in an orthogonal manner. We hypothesized that the information loss exhibited by transformers would be much more detrimental to retrieval than generation, and to test this we introduce an efficient training approach for retrieval models based on existing generative model embeddings. With this method, embeddings from masked mixers are found to result in far better summary-to-story retrieval compared to embeddings from transformers.
- Abstract(参考訳): 入力要素の厳密な部分集合に選択的に焦点をあてる注意機構は、今日の言語モデルにおいてほぼどこでも見られる。
私たちは、注意力の使用のマイナス面として、入力に存在するほとんどの情報が必然的に失われていると仮定します。
この考え方を支持するために、変換器における入力表現の精度が低いが、自己認識をマスク畳み込みに置き換えるマスクミキサーと呼ばれるものにおいて、より正確な表現を求める。
TinyStoriesに適用されたマスク付きミキサーは、初期のトランスフォーマー実装よりも因果言語タスクを効率よく学習し、最適化された現在の実装よりも若干効率が低い。
このデータセットで観測される最も効率的な学習アルゴリズムはトランスフォーマー・マザード・ミキサーハイブリッドであり、これらのモデルが直交的に学習することを示唆している。
変換器が提示する情報損失は, 生成よりも検索に負担がかかると仮定し, 既存の生成モデル埋め込みに基づく検索モデルの効率的なトレーニング手法を提案する。
この方法により, マスクミキサーの埋め込みは, 変圧器の埋め込みに比べて, より優れた要約から物語の検索をもたらすことがわかった。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - How Redundant Is the Transformer Stack in Speech Representation Models? [1.2699529713351287]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。
近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。
後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-10T11:00:24Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems [10.585040856070941]
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
論文 参考訳(メタデータ) (2023-01-23T04:24:26Z) - AtMan: Understanding Transformer Predictions Through Memory Efficient
Attention Manipulation [25.577132500246886]
我々はAtManについて紹介する。AtManは、生成トランスフォーマーモデルの説明を、ほとんど余分なコストで提供する。
AtManは、変換器の注意機構を操作して、入力の関連マップを生成するモード依存摂動法である。
テキストと画像テキストのベンチマーク実験により、AtManはいくつかのメトリクスで現在の最先端の勾配に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-19T15:01:00Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。