Fugu-MT 論文翻訳(概要): Faster Transformer Decoding: N-gram Masked Self-Attention

論文の概要: Faster Transformer Decoding: N-gram Masked Self-Attention

arxiv url: http://arxiv.org/abs/2001.04589v1
Date: Tue, 14 Jan 2020 02:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 11:49:11.781271
Title: Faster Transformer Decoding: N-gram Masked Self-Attention
Title（参考訳）: 高速なトランスフォーマーデコーディング: N-gram Masked Self-Attention
Authors: Ciprian Chelba, Mia Chen, Ankur Bapna, and Noam Shazeer
Abstract要約: 我々は,N$-gramの仮定をすることで,自己注意の計算に使用するターゲット側ウィンドウのトラッピングを提案する。 WMT EnDe と EnFr のデータセットでの実験では、タスクに応じて 4, ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。
参考スコア（独自算出の注目度）: 21.578627040615697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motivated by the fact that most of the information relevant to the prediction of target tokens is drawn from the source sentence $S=s_1, \ldots, s_S$, we propose truncating the target-side window used for computing self-attention by making an $N$-gram assumption. Experiments on WMT EnDe and EnFr data sets show that the $N$-gram masked self-attention model loses very little in BLEU score for $N$ values in the range $4, \ldots, 8$, depending on the task.
Abstract（参考訳）: ターゲットトークンの予測に関連する情報のほとんどは、ソース文 $s=s_1, \ldots, s_s$ から引き出されているという事実に動機づけられ、n$-gram の仮定をすることで、自己アテンションの計算に使用されるターゲット側のウィンドウの切断を提案する。 WMT EnDe と EnFr のデータセットの実験では、タスクに応じて 4, \ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。

関連論文リスト

Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文参考訳（メタデータ） (2025-10-17T01:03:02Z)
Information-Guided Diffusion Sampling for Dataset Distillation [44.216998537570866]
拡散モデル(DM)はこのタスクを約束しているが、低画像/クラス(IPC)設定で苦労している。蒸留データセットが保持しなければならない2つの重要な種類の情報を特定する。 Tiny ImageNetおよびImageNetサブセットの実験では、情報誘導拡散サンプリング(IGDS)が既存の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-07-07T02:27:08Z)
Attention with Trained Embeddings Provably Selects Important Tokens [73.77633297039097]
トーケン埋め込みは言語モデリングにおいて重要な役割を担っているが、この実践的関連性にもかかわらず、理論的な理解は限られている。本論文は,勾配降下法により得られた埋め込み構造を特徴付けることにより,そのギャップを解消する。実世界のデータセット(IMDB、Yelp)の実験では、我々の理論が明らかにしたものに近い現象が示されている。
論文参考訳（メタデータ） (2025-05-22T21:00:09Z)
IGDA: Interactive Graph Discovery through Large Language Model Agents [6.704529554100875]
大規模な言語モデル(textbfLLMs$)が発見の強力な方法として登場した。我々は既存の数値駆動型手法を補完するグラフ発見のための強力な手法として$textbfIGDA$を提案する。
論文参考訳（メタデータ） (2025-02-24T14:24:27Z)
Transfer Learning for Latent Variable Network Models [18.31057192626801]
潜在変数ネットワークモデルにおける推定のための伝達学習について検討する。潜伏変数が共有されている場合、エラーの消滅が可能であることを示す。我々のアルゴリズムは、$o(1)$エラーを達成し、ソースやターゲットネットワーク上でパラメトリック形式を仮定しない。
論文参考訳（メタデータ） (2024-06-05T16:33:30Z)
GIST: Greedy Independent Set Thresholding for Diverse Data Summarization [21.69260104523751]
我々は、min-distance various data summarization(textsfMDDS$)と呼ばれる新しいサブセット選択タスクを提案する。目的は、各点のトータルユーティリティと、選択された任意の点間の最小距離をキャプチャする多様性項を組み合わせた目的を最大化することである。この作業は、$textttGIST$アルゴリズムを示し、$textsfMDDS$の$frac23$-approximation保証を達成する。
論文参考訳（メタデータ） (2024-05-29T04:39:24Z)
Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文参考訳（メタデータ） (2024-03-12T21:15:38Z)
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文参考訳（メタデータ） (2024-01-30T19:03:49Z)
p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文参考訳（メタデータ） (2023-11-06T16:25:56Z)
Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。また、Acharyaなどのアルゴリズムの改良版も提供します。
論文参考訳（メタデータ） (2023-06-20T06:13:56Z)
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals [77.9701193170127]
Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。最終的な予測は、最大でない処理後抑制なしで直接出力される。われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
論文参考訳（メタデータ） (2020-11-25T00:01:28Z)
Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文参考訳（メタデータ） (2020-10-08T22:47:48Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。