論文の概要: On Provable Length and Compositional Generalization
- arxiv url: http://arxiv.org/abs/2402.04875v2
- Date: Sat, 24 Feb 2024 15:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:40:55.818840
- Title: On Provable Length and Compositional Generalization
- Title(参考訳): 確率長と組成一般化について
- Authors: Kartik Ahuja, Amin Mansouri
- Abstract要約: 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。
アーキテクチャによって、線形あるいは置換関係や接地真理表現など、表現の識別の度合いが異なることが証明される。
- 参考スコア(独自算出の注目度): 9.313674976783393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length generalization -- the ability to generalize to longer sequences than
ones seen during training, and compositional generalization -- the ability to
generalize to token combinations not seen during training, are crucial forms of
out-of-distribution generalization in sequence-to-sequence models. In this
work, we take the first steps towards provable length and compositional
generalization for a range of architectures, including deep sets, transformers,
state space models, and simple recurrent neural nets. Depending on the
architecture, we prove different degrees of representation identification,
e.g., a linear or a permutation relation with ground truth representation, is
necessary for length and compositional generalization.
- Abstract(参考訳): 長さ一般化(long generalization) -- 訓練中に見られるものよりも長いシーケンスに一般化する能力、および合成一般化 -- 訓練中に見えないトークンの組み合わせに一般化する能力は、シーケンスからシーケンスへのモデルの分配外一般化の重要な形態である。
本研究では, 深部集合, 変圧器, 状態空間モデル, 単純なリカレントニューラルネットワークなど, 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。
アーキテクチャによって、線形あるいは置換関係や基底真理表現といった表現の識別の度合いが異なることが証明され、長さや組成の一般化に必要となる。
関連論文リスト
- Position Paper: Generalized grammar rules and structure-based
generalization beyond classical equivariance for lexical tasks and
transduction [7.523978255716284]
一般化文法規則(GGR)の概念を用いて構成的に一般化可能なモデル構築のための汎用フレームワークを提案する。
私たちのフレームワークは、多くの既存の作品を特別なケースとして含めるのに十分な一般性を持っています。
我々は、GGRの実装方法に関するアイデアを提示し、その過程で強化学習やその他の研究分野との関連性を引き出す。
論文 参考訳(メタデータ) (2024-02-02T18:44:37Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Learning Algebraic Recombination for Compositional Generalization [71.78771157219428]
合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。
主要な洞察は、意味解析タスクを潜在構文代数学と意味代数学の間の準同型としてモデル化することである。
2つの現実的・包括的構成一般化の実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2021-07-14T07:23:46Z) - Improving Compositional Generalization in Classification Tasks via
Structure Annotations [33.90268697120572]
人間は構成を一般化する能力は大きいが、最先端のニューラルモデルはそれを行うのに苦労している。
まず、自然言語のシーケンス・ツー・シーケンス・データセットを、合成の一般化も必要とする分類データセットに変換する方法について検討する。
第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。
論文 参考訳(メタデータ) (2021-06-19T06:07:27Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。