論文の概要: LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2101.06223v1
- Date: Fri, 15 Jan 2021 17:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 13:27:22.603157
- Title: LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning
- Title(参考訳): LIME:数学的推論の原始者のためのインダクティブバイアスの学習
- Authors: Yuhuai Wu, Markus Rabe, Wenda Li, Jimmy Ba, Roger Grosse, Christian
Szegedy
- Abstract要約: データセットに誘導バイアスを符号化することでアーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
LIMEで訓練されたモデルは、3つの非常に異なる大きな数学的推論ベンチマークでバニラトランスを大幅に上回る。
- 参考スコア(独自算出の注目度): 30.610670366488943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While designing inductive bias in neural architectures has been widely
studied, we hypothesize that transformer networks are flexible enough to learn
inductive bias from suitable generic tasks. Here, we replace architecture
engineering by encoding inductive bias in the form of datasets. Inspired by
Peirce's view that deduction, induction, and abduction form an irreducible set
of reasoning primitives, we design three synthetic tasks that are intended to
require the model to have these three abilities. We specifically design these
synthetic tasks in a way that they are devoid of mathematical knowledge to
ensure that only the fundamental reasoning biases can be learned from these
tasks. This defines a new pre-training methodology called "LIME" (Learning
Inductive bias for Mathematical rEasoning). Models trained with LIME
significantly outperform vanilla transformers on three very different large
mathematical reasoning benchmarks. Unlike dominating the computation cost as
traditional pre-training approaches, LIME requires only a small fraction of the
computation cost of the typical downstream task.
- Abstract(参考訳): ニューラルアーキテクチャにおける帰納バイアスの設計は広く研究されているが、トランスフォーマーネットワークは適切な汎用タスクから帰納バイアスを学ぶのに十分な柔軟性があるという仮説を立てている。
ここでは,インダクティブバイアスをデータセット形式でエンコードすることで,アーキテクチャ工学を置き換える。
推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。
我々は、これらのタスクから基本的な推論バイアスのみが学べるように、数学的知識を欠くように、これらの合成タスクを特別に設計する。
これは「LIME(Learning Inductive bias for Mathematical rEasoning)」と呼ばれる新しい事前学習手法を定義する。
limeでトレーニングされたモデルは、3つの異なる大きな数学的推論ベンチマークでバニラトランスを著しく上回っている。
従来の事前学習アプローチとして計算コストを支配するのとは異なり、LIMEは典型的な下流タスクの計算コストのごく一部しか必要としない。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Towards Exact Computation of Inductive Bias [8.988109761916379]
本稿では,タスクの一般化に必要な帰納バイアスを効率的に計算する手法を提案する。
より高次元的なタスクはより帰納的バイアスを必要とすることを示す。
提案した帰納バイアス指標は,特定のモデルアーキテクチャの利点を情報理論で解釈する。
論文 参考訳(メタデータ) (2024-06-22T21:14:24Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - Instilling Inductive Biases with Subnetworks [19.444844580405594]
サブタスク誘導は、サブタスクを利用したソリューションに対する誘導バイアスを注入する。
本稿では,Subtaskインダクションが,特定の一般化可能なソリューションを採用するために必要なトレーニングデータの量を大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-10-17T00:12:19Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Training a First-Order Theorem Prover from Synthetic Data [50.23600875138756]
自動定理証明に機械学習を適用する際の大きな課題は、トレーニングデータの不足である。
本稿では,人間のデータを公理によらずに,純粋に合成生成定理をトレーニングする手法を提案する。
私達の神経証明者は時間および検索のステップのこの総合的なデータで最先端のE-proverを上回っます。
論文 参考訳(メタデータ) (2021-03-05T17:01:34Z) - What they do when in doubt: a study of inductive biases in seq2seq
learners [22.678902168856624]
本研究では,セク2セクの学習者が学習データにあいまいなタスクを一般化する方法について検討する。
我々はソロモノフの帰納理論に結びつき、説明長を帰納バイアスの原理的かつ敏感な尺度として使うことを提案する。
論文 参考訳(メタデータ) (2020-06-26T12:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。