論文の概要: Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning
- arxiv url: http://arxiv.org/abs/2212.05982v1
- Date: Mon, 12 Dec 2022 15:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:10:04.009488
- Title: Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning
- Title(参考訳): アンタングル型シーケンス対シーケンス学習を用いた実世界の合成一般化
- Authors: Hao Zheng and Mirella Lapata
- Abstract要約: 最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
- 参考スコア(独自算出の注目度): 81.24269148865555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization is a basic mechanism in human language learning,
which current neural networks struggle with. A recently proposed Disentangled
sequence-to-sequence model (Dangle) shows promising generalization capability
by learning specialized encodings for each decoding step. We introduce two key
modifications to this model which encourage more disentangled representations
and improve its compute and memory efficiency, allowing us to tackle
compositional generalization in a more realistic setting. Specifically, instead
of adaptively re-encoding source keys and values at each time step, we
disentangle their representations and only re-encode keys periodically, at some
interval. Our new architecture leads to better generalization performance
across existing tasks and datasets, and a new machine translation benchmark
which we create by detecting naturally occurring compositional patterns in
relation to a training set. We show this methodology better emulates real-world
requirements than artificial challenges.
- Abstract(参考訳): 合成一般化は、現在のニューラルネットワークが苦戦している人間の言語学習の基本的なメカニズムである。
最近提案されたDunangled sequence-to-sequence model (Dangle) は、復号ステップごとに特別な符号化を学習することで、有望な一般化能力を示す。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、計算とメモリ効率を改善し、より現実的な構成一般化に取り組みます。
具体的には、各時間ステップでソースキーと値を適応的に再エンコードするのではなく、それらの表現を分離し、一定間隔で定期的にキーを再エンコードする。
我々の新しいアーキテクチャは、既存のタスクやデータセット間でのより優れた一般化性能と、トレーニングセットに関連して自然に発生する構成パターンを検出して作成する新しい機械翻訳ベンチマークをもたらす。
この手法は人工的な課題よりも現実の要求をうまくエミュレートする。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On the Regularization of Learnable Embeddings for Time Series Processing [18.069747511100132]
時系列処理のための局所学習可能な埋め込みの学習を規則化する手法について検討する。
この文脈では,局所的パラメータと大域的パラメータの共適応を防ぐ手法が特に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:30:20Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - Recursive Decoding: A Situated Cognition Approach to Compositional
Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。
1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。
RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文 参考訳(メタデータ) (2022-01-27T19:13:42Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。