論文の概要: Conditions for Length Generalization in Learning Reasoning Skills
- arxiv url: http://arxiv.org/abs/2311.16173v1
- Date: Wed, 22 Nov 2023 03:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:06:13.488784
- Title: Conditions for Length Generalization in Learning Reasoning Skills
- Title(参考訳): 学習推論スキルにおける長さ一般化条件
- Authors: Changnan Xiao and Bing Liu
- Abstract要約: 本研究はマルコフ動的過程(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てる。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
- 参考スコア(独自算出の注目度): 14.39250745903544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is a fundamental capability of AI agents. Recently, large language
models (LLMs) have shown remarkable abilities to perform reasoning tasks.
However, numerous evaluations of the reasoning capabilities of LLMs have also
showed some limitations. An outstanding limitation is length generalization,
meaning that when trained on reasoning problems of smaller lengths or sizes,
the resulting models struggle with problems of larger sizes or lengths. This
potentially indicates some theoretical limitations of generalization in
learning reasoning skills. These evaluations and their observations motivated
us to perform a theoretical study of the length generalization problem. This
work focused on reasoning tasks that can be formulated as Markov dynamic
processes (MDPs) and/or directed acyclic graphs (DAGs). It identifies and
proves conditions that decide whether the length generalization problem can be
solved or not for a reasoning task in a particular representation. Experiments
are also conducted to verify the theoretical results.
- Abstract(参考訳): 推論はAIエージェントの基本的な能力である。
近年,大規模言語モデル (LLM) は推論タスクの実行能力が著しく向上している。
しかし、LSMの推論能力に関する多くの評価もいくつかの制限を示している。
つまり、より小さい長さや大きさの推論問題を訓練すると、結果として得られるモデルはより大きなサイズや長さの問題に直面する。
これは推論スキルの学習における一般化の理論的限界を示す可能性がある。
これらの評価とその観察は、長さ一般化問題の理論的研究を動機づけた。
この研究は、マルコフ動的プロセス(MDP)および/または有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てた。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
理論的結果を検証する実験も行われている。
関連論文リスト
- Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Can Large Language Models Reason? A Characterization via 3-SAT [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
近年の研究では、LLMは、しばしばショートカットを使用した真の推論を回避し、懐疑論を引き起こすことが示されている。
本稿では,論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。
論文 参考訳(メタデータ) (2024-08-13T21:54:10Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation [24.584926992534346]
本稿では,GFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。
解法の難解化は、推論規則を拡張し、矛盾による証明の原理を採用することによって、全ての一階論理推論問題を解く能力を持つ。
我々のシステムは、単純なシナリオでパフォーマンスを維持しながら、複雑なシナリオで最先端のパフォーマンスを達成することで、これまでの作業より優れています。
論文 参考訳(メタデータ) (2024-04-02T06:28:44Z) - A Theory for Length Generalization in Learning to Reason [12.182921159573663]
長さの一般化は、推論を学ぶ上で難しい問題である。
この現象は、より小さい長さや大きさの推論問題を訓練すると、結果のモデルがより大きなサイズや長さの問題と競合する現象を指す。
本稿では,DAGをモデル化可能な問題に対するLGの理論的研究を提案する。
論文 参考訳(メタデータ) (2024-03-31T04:44:22Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。