論文の概要: On Provable Length and Compositional Generalization
- arxiv url: http://arxiv.org/abs/2402.04875v1
- Date: Wed, 7 Feb 2024 14:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:17:57.316428
- Title: On Provable Length and Compositional Generalization
- Title(参考訳): 確率長と組成一般化について
- Authors: Kartik Ahuja, Amin Mansouri
- Abstract要約: 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。
アーキテクチャによって、線形あるいは置換関係や接地真理表現など、表現の識別の度合いが異なることが証明される。
- 参考スコア(独自算出の注目度): 9.313674976783393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length generalization -- the ability to generalize to longer sequences than
ones seen during training, and compositional generalization -- the ability to
generalize to token combinations not seen during training, are crucial forms of
out-of-distribution generalization in sequence-to-sequence models. In this
work, we take the first steps towards provable length and compositional
generalization for a range of architectures, including deep sets, transformers,
state space models, and simple recurrent neural nets. Depending on the
architecture, we prove different degrees of representation identification,
e.g., a linear or a permutation relation with ground truth representation, is
necessary for length and compositional generalization.
- Abstract(参考訳): 長さ一般化(long generalization) -- 訓練中に見られるものよりも長いシーケンスに一般化する能力、および合成一般化 -- 訓練中に見えないトークンの組み合わせに一般化する能力は、シーケンスからシーケンスへのモデルの分配外一般化の重要な形態である。
本研究では, 深部集合, 変圧器, 状態空間モデル, 単純なリカレントニューラルネットワークなど, 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。
アーキテクチャによって、線形あるいは置換関係や基底真理表現といった表現の識別の度合いが異なることが証明され、長さや組成の一般化に必要となる。
関連論文リスト
- GRAM: Generalization in Deep RL with a Robust Adaptation Module [29.303051759538416]
本研究では,深層強化学習における動的一般化の枠組みを提案する。
本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。
我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:39:01Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - On the generalization capacity of neural networks during generic
multimodal reasoning [20.1430673356983]
マルチモーダル一般化のための大規模言語モデルの能力を評価し比較する。
マルチモーダルインプットと体系的一般化のためには、クロスモーダルアテンションまたはより深いアテンション層を持つモデルが、マルチモーダルインプットを統合するのに必要な重要なアーキテクチャ的特徴である。
論文 参考訳(メタデータ) (2024-01-26T17:42:59Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Symbolic Brittleness in Sequence Models: on Systematic Generalization in
Symbolic Mathematics [38.62999063710003]
我々は、テストセットを超えて体系的に一般化する必要があるため、記号的数学的積分の問題を考察する。
本稿では,問題領域の構造と検証器へのアクセスを活かした一般化評価手法を開発する。
本研究では,手動テストスイートと遺伝的アルゴリズムの両方を用いて,ロバスト性,構成性,分布外一般化を実現する上での課題を示す。
論文 参考訳(メタデータ) (2021-09-28T18:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。