論文の概要: A Theory for Length Generalization in Learning to Reason
- arxiv url: http://arxiv.org/abs/2404.00560v1
- Date: Sun, 31 Mar 2024 04:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:00:38.375355
- Title: A Theory for Length Generalization in Learning to Reason
- Title(参考訳): 推論学習における長さ一般化の理論
- Authors: Changnan Xiao, Bing Liu,
- Abstract要約: 長さの一般化は、推論を学ぶ上で難しい問題である。
この現象は、より小さい長さや大きさの推論問題を訓練すると、結果のモデルがより大きなサイズや長さの問題と競合する現象を指す。
本稿では,DAGをモデル化可能な問題に対するLGの理論的研究を提案する。
- 参考スコア(独自算出の注目度): 12.182921159573663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Length generalization (LG) is a challenging problem in learning to reason. It refers to the phenomenon that when trained on reasoning problems of smaller lengths or sizes, the resulting model struggles with problems of larger sizes or lengths. Although LG has been studied by many researchers, the challenge remains. This paper proposes a theoretical study of LG for problems whose reasoning processes can be modeled as DAGs (directed acyclic graphs). The paper first identifies and proves the conditions under which LG can be achieved in learning to reason. It then designs problem representations based on the theory to learn to solve challenging reasoning problems like parity, addition, and multiplication, using a Transformer to achieve perfect LG.
- Abstract(参考訳): 長さ一般化(LG)は、推論を学ぶ上で難しい問題である。
この現象は、より小さい長さや大きさの推論問題を訓練すると、結果のモデルがより大きなサイズや長さの問題と競合する現象を指す。
LGは多くの研究者によって研究されてきたが、課題は残る。
本稿では,DAG(directed acyclic graphs)としてモデル化可能な問題に対するLGの理論的研究を提案する。
この論文はまず、LGが推論の学習で達成できる条件を特定し、証明する。
次に、この理論に基づいて問題表現を設計し、パーティ、加算、乗算といった難解な推論問題の解法を学ぶ。
関連論文リスト
- Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Look Globally and Reason: Two-stage Path Reasoning over Sparse Knowledge Graphs [70.8150181683017]
スパース知識グラフ(英: Sparse Knowledge Graphs、KG)は、より人口密度の高いKGに比べて、(ヘッドエンティティ、リレーショナル、テールエンティティ)の形での事実が少ない。
スパースKGに対してLoGRe(Look Globally and Reason)と呼ばれる2段階経路推論モデルを提案する。
論文 参考訳(メタデータ) (2024-07-26T07:10:27Z) - Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation [24.584926992534346]
本稿では,GFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。
解法の難解化は、推論規則を拡張し、矛盾による証明の原理を採用することによって、全ての一階論理推論問題を解く能力を持つ。
我々のシステムは、単純なシナリオでパフォーマンスを維持しながら、複雑なシナリオで最先端のパフォーマンスを達成することで、これまでの作業より優れています。
論文 参考訳(メタデータ) (2024-04-02T06:28:44Z) - Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs [102.37496443389203]
LGOT(Logic-Query-of-Thoughts)は知識グラフ推論と大規模言語モデルを組み合わせた最初の方法である。
実験の結果,ChatGPTよりも20%向上した。
論文 参考訳(メタデータ) (2024-03-17T17:01:45Z) - Divide-or-Conquer? Which Part Should You Distill Your LLM? [38.62667131299918]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - Conditions for Length Generalization in Learning Reasoning Skills [14.39250745903544]
本研究はマルコフ動的過程(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てる。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
論文 参考訳(メタデータ) (2023-11-22T03:36:18Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Large Language Model for Science: A Study on P vs. NP [88.67249044141529]
大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。
具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。
我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
論文 参考訳(メタデータ) (2023-09-11T17:49:27Z) - A Theoretical Analysis of the Repetition Problem in Text Generation [55.8184629429347]
我々は、繰り返しの問題が、残念ながら、我々の言語自体の特性によって引き起こされていることを示す。
一つの大きな理由は、その後の単語と同じ単語を高い確率で予測する単語が多すぎるという事実に起因する。
高インフロー問題を軽減するための新しい再バランス符号化手法を提案する。
論文 参考訳(メタデータ) (2020-12-29T08:51:47Z) - A (Simplified) Supreme Being Necessarily Exists, says the Computer:
Computationally Explored Variants of G\"odel's Ontological Argument [0.0]
いくつかの議論前提は修正され、他のものは取り下げられ、モダル崩壊は回避され、既に弱いモダル論理 K と T で妥当性が示される。
本稿は, 量子化された非古典論理に対する現代的な知識表現と推論技術が, 新たな知識を他の分野にもたらす方法を説明する。
論文 参考訳(メタデータ) (2020-01-14T10:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。