論文の概要: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- arxiv url: http://arxiv.org/abs/2301.13105v2
- Date: Wed, 28 Jun 2023 15:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:10:55.428142
- Title: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- Title(参考訳): 未発見の論理推論と学位カリキュラムの一般化
- Authors: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk
- Abstract要約: 本稿では,GOTU設定の一般化に着目した論理関数の学習について考察する。
我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。
本稿では,トランスフォーマー,ランダム特徴モデル,対角線ネットワークなどを含むネットワークモデルのクラスについて,その見当たらない部分でmin-degree-interpolatorを学習することを示す。
- 参考スコア(独自算出の注目度): 33.777993397106584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the learning of logical (Boolean) functions with focus
on the generalization on the unseen (GOTU) setting, a strong case of
out-of-distribution generalization. This is motivated by the fact that the rich
combinatorial nature of data in certain reasoning tasks (e.g.,
arithmetic/logic) makes representative data sampling challenging, and learning
successfully under GOTU gives a first vignette of an 'extrapolating' or
'reasoning' learner. We then study how different network architectures trained
by (S)GD perform under GOTU and provide both theoretical and experimental
evidence that for a class of network models including instances of
Transformers, random features models, and diagonal linear networks, a
min-degree-interpolator is learned on the unseen. We also provide evidence that
other instances with larger learning rates or mean-field networks reach leaky
min-degree solutions. These findings lead to two implications: (1) we provide
an explanation to the length generalization problem (e.g., Anil et al. 2022);
(2) we introduce a curriculum learning algorithm called Degree-Curriculum that
learns monomials more efficiently by incrementing supports.
- Abstract(参考訳): 本稿では,論理関数の学習を,分散一般化の強い場合である未完(gotu)設定の一般化に焦点をあてて検討する。
これは、ある推論タスク(例えば算術/論理学)におけるデータのリッチな組合せの性質が、代表的データのサンプリングを困難にし、GOTUの下での学習が成功すると、'extrapolating'あるいは'reasoning'学習者の最初のビゲットを与えるという事実が動機である。
次に、(S)GDでトレーニングされた異なるネットワークアーキテクチャがGOTUの下でどのように機能するかを研究し、トランスフォーマーのインスタンス、ランダム特徴モデル、対角線ネットワークを含むネットワークモデルのクラスにおいて、無目でmin-degree-interpolatorが学習されるという理論的および実験的証拠を提供する。
また、学習率や平均フィールドネットワークが漏れやすい最小限の解に到達した証拠も提示する。
これらの知見は,(1)長さ一般化問題(例: Anil et al. 2022)を説明すること,(2)単項をより効率的に学習するDegree-Curriculumというカリキュラム学習アルゴリズムを導入すること,の2つに繋がる。
関連論文リスト
- On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions [19.203590688200777]
ランダム特徴量(RF)モデルと変換器の領域外一般化について検討する。
まず、無見えない(GOTU)設定の一般化において、収束は極小の補間子に起こることを証明した。
次に、スパースターゲット体制を考察し、この体制が小さな特徴体制とどのように関係しているかを説明する。
論文 参考訳(メタデータ) (2024-06-10T15:14:33Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection [8.050935113945428]
本稿では,transFormer(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。
RAGFormerはセマンティック機能とトポロジ機能の両方をターゲットノードに埋め込む。
単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。
論文 参考訳(メタデータ) (2024-02-27T12:53:15Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - Towards Sample-efficient Overparameterized Meta-learning [37.676063120293044]
機械学習における包括的なゴールは、少数のサンプルで一般化可能なモデルを構築することである。
本稿ではメタラーニングにおけるパラメータ化の克服を目的とする。
最適表現の学習はタスク認識正規化を設計する問題と一致することを示す。
論文 参考訳(メタデータ) (2022-01-16T21:57:17Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。