論文の概要: Lexicon Learning for Few-Shot Neural Sequence Modeling
- arxiv url: http://arxiv.org/abs/2106.03993v1
- Date: Mon, 7 Jun 2021 22:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:18:56.133065
- Title: Lexicon Learning for Few-Shot Neural Sequence Modeling
- Title(参考訳): ニューラルシーケンスモデリングのためのレキシコン学習
- Authors: Ekin Aky\"urek and Jacob Andreas
- Abstract要約: 本稿では,既存の複写機構を一般化した語彙変換機構を提案する。
認知科学、形式意味論、機械翻訳から引き出された様々なシーケンスモデリングタスクの体系的な一般化を改善する。
- 参考スコア(独自算出の注目度): 32.49689188570872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence transduction is the core problem in language processing
applications as diverse as semantic parsing, machine translation, and
instruction following. The neural network models that provide the dominant
solution to these problems are brittle, especially in low-resource settings:
they fail to generalize correctly or systematically from small datasets. Past
work has shown that many failures of systematic generalization arise from
neural models' inability to disentangle lexical phenomena from syntactic ones.
To address this, we augment neural decoders with a lexical translation
mechanism that generalizes existing copy mechanisms to incorporate learned,
decontextualized, token-level translation rules. We describe how to initialize
this mechanism using a variety of lexicon learning algorithms, and show that it
improves systematic generalization on a diverse set of sequence modeling tasks
drawn from cognitive science, formal semantics, and machine translation.
- Abstract(参考訳): シーケンスからシーケンスへの変換は、意味解析、機械翻訳、命令追従など、言語処理アプリケーションにおける核となる問題である。
これらの問題に対して支配的な解決策を提供するニューラルネットワークモデルは、特に低リソース設定では不安定である。
過去の研究によると、体系的な一般化の失敗の多くは、神経モデルが構文的現象から語彙的現象を解離できないことから生じる。
これを解決するために、既存のコピー機構を一般化した語彙変換機構を用いてニューラルデコーダを強化し、学習された非コンテキスト化トークンレベルの翻訳ルールを組み込む。
様々な語彙学習アルゴリズムを用いて、このメカニズムを初期化する方法を説明し、認知科学、形式意味論、機械翻訳から引き出された様々なシーケンスモデリングタスクの体系的一般化を改善することを示す。
関連論文リスト
- Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Neural-Symbolic Recursive Machine for Systematic Generalization [113.22455566135757]
我々は、基底記号システム(GSS)のコアとなるニューラル・シンボリック再帰機械(NSR)を紹介する。
NSRは神経知覚、構文解析、意味推論を統合している。
我々はNSRの有効性を,系統的一般化能力の探索を目的とした4つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-10-04T13:27:38Z) - Gaussian Process Surrogate Models for Neural Networks [6.8304779077042515]
科学と工学において、モデリング(英: modeling)とは、内部プロセスが不透明な複雑なシステムを理解するために用いられる方法論である。
本稿では,ガウス過程を用いたニューラルネットワークの代理モデルのクラスを構築する。
提案手法は,ニューラルネットワークのスペクトルバイアスに関連する既存の現象を捕捉し,サロゲートモデルを用いて現実的な問題を解決することを実証する。
論文 参考訳(メタデータ) (2022-08-11T20:17:02Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - An empirical analysis of phrase-based and neural machine translation [0.0]
機械翻訳(MT)の2つの一般的なタイプは、フレーズベースとニューラルマシン翻訳システムです。
フレーズベースおよびニューラルMTシステムにおける重要モデルの挙動について検討する。
論文 参考訳(メタデータ) (2021-03-04T15:28:28Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。