論文の概要: On-the-Fly Attention Modularization for Neural Generation
- arxiv url: http://arxiv.org/abs/2101.00371v1
- Date: Sat, 2 Jan 2021 05:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 10:04:10.535764
- Title: On-the-Fly Attention Modularization for Neural Generation
- Title(参考訳): ニューラルジェネレーションのためのオンザフライアテンションモジュール化
- Authors: Yue Dong, Chandra Bhagavatula, Ximing Lu, Jena D. Hwang, Antoine
Bosselut, Jackie Chi Kit Cheung, Yejin Choi
- Abstract要約: 生成したテキストは反復的であり,汎用的であり,自己矛盾であり,常識を欠いている。
本研究は,インダクティブバイアスを推論中に注入する簡易かつ効果的な手法である,オンザフライアテンション・モダナイゼーションを動機とする。
- 参考スコア(独自算出の注目度): 54.912042110885366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite considerable advancements with deep neural language models (LMs),
neural text generation still suffers from degeneration: generated text is
repetitive, generic, self-inconsistent, and lacking commonsense. The empirical
analyses on sentence-level attention patterns reveal that neural text
degeneration may be associated with insufficient learning of inductive biases
by the attention mechanism. Our findings motivate on-the-fly attention
modularization, a simple but effective method for injecting inductive biases
into attention computation during inference. The resulting text produced by the
language model with attention modularization can yield enhanced diversity and
commonsense reasoning while maintaining fluency and coherence.
- Abstract(参考訳): 深層言語モデル(LM)によるかなりの進歩にもかかわらず、ニューラルテキスト生成は依然として変性に悩まされている。
文章レベルの注意パターンに関する経験的分析から,神経テキストの変性は注意機構による帰納的バイアスの学習不足と関連している可能性が示唆された。
本研究は,インダクティブバイアスを推論中に注意計算に注入する簡易かつ効果的な手法である,オンザフライアテンションモダナイゼーションを動機付けている。
モジュール化に注意を向けた言語モデルによって生成された結果のテキストは、拡散性とコヒーレンスを維持しながら、多様性とコモンセンス推論を向上させることができる。
関連論文リスト
- Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies [7.21603206617401]
より大型のGPT-2モデルでは、マスキングによる劣化の程度を示すために、被マスキング/被マスキングを行うために、不均等に多くの注意ヘッドを必要とすることが示されている。
これらの結果から, トランスフォーマーモデルにおける注意機構は, 認知と脳保護の概念に類似している可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-05T00:31:50Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical
Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。
NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Learning to Rationalize for Nonmonotonic Reasoning with Distant
Supervision [44.32874972577682]
モデル予測を説明する自然言語の理性について,ニューラルモデルが判断できる範囲について検討する。
トレーニング済みの言語モデル、ニューラルナレッジモデル、関連するタスクからの遠隔監視を使用します。
我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束している。
論文 参考訳(メタデータ) (2020-12-14T23:50:20Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。