Fugu-MT 論文翻訳(概要): On Provable Length and Compositional Generalization

論文の概要: On Provable Length and Compositional Generalization

arxiv url: http://arxiv.org/abs/2402.04875v1
Date: Wed, 7 Feb 2024 14:16:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 15:17:57.316428
Title: On Provable Length and Compositional Generalization
Title（参考訳）: 確率長と組成一般化について
Authors: Kartik Ahuja, Amin Mansouri
Abstract要約: 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。アーキテクチャによって、線形あるいは置換関係や接地真理表現など、表現の識別の度合いが異なることが証明される。
参考スコア（独自算出の注目度）: 9.313674976783393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Length generalization -- the ability to generalize to longer sequences than ones seen during training, and compositional generalization -- the ability to generalize to token combinations not seen during training, are crucial forms of out-of-distribution generalization in sequence-to-sequence models. In this work, we take the first steps towards provable length and compositional generalization for a range of architectures, including deep sets, transformers, state space models, and simple recurrent neural nets. Depending on the architecture, we prove different degrees of representation identification, e.g., a linear or a permutation relation with ground truth representation, is necessary for length and compositional generalization.
Abstract（参考訳）: 長さ一般化(long generalization) -- 訓練中に見られるものよりも長いシーケンスに一般化する能力、および合成一般化 -- 訓練中に見えないトークンの組み合わせに一般化する能力は、シーケンスからシーケンスへのモデルの分配外一般化の重要な形態である。本研究では, 深部集合, 変圧器, 状態空間モデル, 単純なリカレントニューラルネットワークなど, 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。アーキテクチャによって、線形あるいは置換関係や基底真理表現といった表現の識別の度合いが異なることが証明され、長さや組成の一般化に必要となる。

関連論文リスト

Understanding and Improving Length Generalization in Recurrent Models [16.642157805072042]
リカレントモデルは任意に長いシーケンスを処理できますが、そのパフォーマンスはトレーニングコンテキストの長さを超える場合があります。トレーニング中のモデルが,到達可能な状態の分布の限られた部分集合にのみ露出した場合に,モデルが一般化されないことを示す。モデルが訓練されている状態のカバレッジを高めるための簡単な訓練介入について検討する。
論文参考訳（メタデータ） (2025-07-03T16:45:50Z)
Extrapolation by Association: Length Generalization Transfer in Transformers [29.659527141850436]
長さ一般化は関連するタスク間でテキスト転送可能であることを示す。この結果から, 変圧器モデルでは, 協調学習時に類似タスクから一般化能力を継承できることが示唆された。長さ一般化の伝達は,タスク間の同一の注目ヘッドの再使用と相関する,初期力学的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-10T21:22:51Z)
The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文参考訳（メタデータ） (2025-05-26T17:55:15Z)
The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
GRAM: Generalization in Deep RL with a Robust Adaptation Module [29.303051759538416]
本研究では,深層強化学習における動的一般化の枠組みを提案する。本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文参考訳（メタデータ） (2024-12-05T16:39:01Z)
A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文参考訳（メタデータ） (2024-10-03T01:52:01Z)
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文参考訳（メタデータ） (2024-03-11T16:23:42Z)
On the generalization capacity of neural networks during generic multimodal reasoning [20.1430673356983]
マルチモーダル一般化のための大規模言語モデルの能力を評価し比較する。マルチモーダルインプットと体系的一般化のためには、クロスモーダルアテンションまたはより深いアテンション層を持つモデルが、マルチモーダルインプットを統合するのに必要な重要なアーキテクチャ的特徴である。
論文参考訳（メタデータ） (2024-01-26T17:42:59Z)
Real-World Compositional Generalization with Disentangled Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文参考訳（メタデータ） (2022-12-12T15:40:30Z)
Compositional Generalisation with Structured Reordering and Fertility Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文参考訳（メタデータ） (2022-10-06T19:51:31Z)
Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文参考訳（メタデータ） (2022-02-24T07:36:35Z)
Disentangled Sequence to Sequence Learning for Compositional Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文参考訳（メタデータ） (2021-10-09T22:27:19Z)
Improving Compositional Generalization in Classification Tasks via Structure Annotations [33.90268697120572]
人間は構成を一般化する能力は大きいが、最先端のニューラルモデルはそれを行うのに苦労している。まず、自然言語のシーケンス・ツー・シーケンス・データセットを、合成の一般化も必要とする分類データセットに変換する方法について検討する。第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。
論文参考訳（メタデータ） (2021-06-19T06:07:27Z)
Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文参考訳（メタデータ） (2020-10-22T15:55:15Z)
Does syntax need to grow on trees? Sources of hierarchical inductive bias in sequence-to-sequence networks [28.129220683169052]
ニューラルネットワークモデルでは、帰納バイアスは理論上モデルアーキテクチャのあらゆる側面から生じる可能性がある。 2つの構文的タスクで訓練されたニューラルシークエンス・ツー・シーケンスモデルの一般化挙動にどのようなアーキテクチャ的要因が影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2020-01-10T19:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。