論文の概要: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- arxiv url: http://arxiv.org/abs/2301.13105v3
- Date: Wed, 20 Nov 2024 17:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:07.808225
- Title: Generalization on the Unseen, Logic Reasoning and Degree Curriculum
- Title(参考訳): 未知・論理推論・Degree Curriculumの一般化
- Authors: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk,
- Abstract要約: 本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。
我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。
具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
- 参考スコア(独自算出の注目度): 25.7378861650474
- License:
- Abstract: This paper considers the learning of logical (Boolean) functions with a focus on the generalization on the unseen (GOTU) setting, a strong case of out-of-distribution generalization. This is motivated by the fact that the rich combinatorial nature of data in certain reasoning tasks (e.g., arithmetic/logic) makes representative data sampling challenging, and learning successfully under GOTU gives a first vignette of an 'extrapolating' or 'reasoning' learner. We study how different network architectures trained by (S)GD perform under GOTU and provide both theoretical and experimental evidence that for sparse functions and a class of network models including instances of Transformers, random features models, and linear networks, a min-degree-interpolator is learned on the unseen. More specifically, this means an interpolator of the training data that has minimal Fourier mass on the higher degree basis elements. These findings lead to two implications: (1) we provide an explanation to the length generalization problem for Boolean functions (e.g., Anil et al. 2022); (2) we introduce a curriculum learning algorithm called Degree-Curriculum that learns monomials more efficiently by incrementing supports. Finally, we discuss extensions to other models or non-sparse regimes where the min-degree bias may still occur or fade, as well as how it can be potentially corrected when undesirable.
- Abstract(参考訳): 本稿では,論理的(ブール的)関数の学習について考察し,非分布的(GOTU)設定の一般化に焦点をあてる。
これは、ある推論タスク(例えば算術/論理学)におけるデータのリッチな組合せの性質が、代表的データのサンプリングを困難にし、GOTUの下での学習が成功すれば、'extrapolating'あるいは'reasoning'学習者の最初のビゲットが得られるという事実が動機である。
我々は,(S)GDで訓練された異なるネットワークアーキテクチャがGOTUの下でどのように機能するかを考察し,スパース関数とトランスフォーマーのインスタンス,ランダム特徴モデル,線形ネットワークを含むネットワークモデルのクラスに対して,無目でMin-degree-interpolatorが学習されることを理論的および実験的に証明する。
具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
これらの結果から,(1)ブール関数長一般化問題(例, Anil et al 2022)の説明,(2)単項をより効率的に学習するDegree-Curriculumというカリキュラム学習アルゴリズムを導入すること,の2つが示唆された。
最後に、最小のバイアスがまだ発生または消失する可能性のある他のモデルや非スパース体制の拡張と、それが望ましくない場合にどのように修正されるかについて議論する。
関連論文リスト
- On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions [19.203590688200777]
ランダム特徴量(RF)モデルと変換器の領域外一般化について検討する。
まず、無見えない(GOTU)設定の一般化において、収束は極小の補間子に起こることを証明した。
次に、スパースターゲット体制を考察し、この体制が小さな特徴体制とどのように関係しているかを説明する。
論文 参考訳(メタデータ) (2024-06-10T15:14:33Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection [8.050935113945428]
本稿では,transFormer(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。
RAGFormerはセマンティック機能とトポロジ機能の両方をターゲットノードに埋め込む。
単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。
論文 参考訳(メタデータ) (2024-02-27T12:53:15Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - Towards Sample-efficient Overparameterized Meta-learning [37.676063120293044]
機械学習における包括的なゴールは、少数のサンプルで一般化可能なモデルを構築することである。
本稿ではメタラーニングにおけるパラメータ化の克服を目的とする。
最適表現の学習はタスク認識正規化を設計する問題と一致することを示す。
論文 参考訳(メタデータ) (2022-01-16T21:57:17Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。