論文の概要: Conditions for Length Generalization in Learning Reasoning Skills
- arxiv url: http://arxiv.org/abs/2311.16173v2
- Date: Wed, 6 Dec 2023 16:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:51:31.395926
- Title: Conditions for Length Generalization in Learning Reasoning Skills
- Title(参考訳): 学習推論スキルにおける長さ一般化条件
- Authors: Changnan Xiao and Bing Liu
- Abstract要約: 本研究はマルコフ動的過程(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てる。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
- 参考スコア(独自算出の注目度): 14.39250745903544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is a fundamental capability of AI agents. Recently, large language
models (LLMs) have shown remarkable abilities to perform reasoning tasks.
However, numerous evaluations of the reasoning capabilities of LLMs have also
showed some limitations. An outstanding limitation is length generalization,
meaning that when trained on reasoning problems of smaller lengths or sizes,
the resulting models struggle with problems of larger sizes or lengths. This
potentially indicates some theoretical limitations of generalization in
learning reasoning skills. These evaluations and their observations motivated
us to perform a theoretical study of the length generalization problem. This
work focuses on reasoning tasks that can be formulated as Markov dynamic
processes (MDPs) and/or directed acyclic graphs (DAGs). It identifies and
proves conditions that decide whether the length generalization problem can be
solved or not for a reasoning task in a particular representation. Experiments
are also conducted to verify the theoretical results.
- Abstract(参考訳): 推論はAIエージェントの基本的な能力である。
近年,大規模言語モデル (LLM) は推論タスクの実行能力が著しく向上している。
しかし、LSMの推論能力に関する多くの評価もいくつかの制限を示している。
つまり、より小さい長さや大きさの推論問題を訓練すると、結果として得られるモデルはより大きなサイズや長さの問題に直面する。
これは推論スキルの学習における一般化の理論的限界を示す可能性がある。
これらの評価とその観察は、長さ一般化問題の理論的研究を動機づけた。
この研究は、マルコフ動的プロセス(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てている。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
理論的結果を検証する実験も行われている。
関連論文リスト
- Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。
出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。
提案手法は,膨大な因果クエリ作成を容易にする。
論文 参考訳(メタデータ) (2024-11-29T06:37:13Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation [24.584926992534346]
本稿では,GFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。
解法の難解化は、推論規則を拡張し、矛盾による証明の原理を採用することによって、全ての一階論理推論問題を解く能力を持つ。
我々のシステムは、単純なシナリオでパフォーマンスを維持しながら、複雑なシナリオで最先端のパフォーマンスを達成することで、これまでの作業より優れています。
論文 参考訳(メタデータ) (2024-04-02T06:28:44Z) - A Theory for Length Generalization in Learning to Reason [12.182921159573663]
長さの一般化は、推論を学ぶ上で難しい問題である。
この現象は、より小さい長さや大きさの推論問題を訓練すると、結果のモデルがより大きなサイズや長さの問題と競合する現象を指す。
本稿では,DAGをモデル化可能な問題に対するLGの理論的研究を提案する。
論文 参考訳(メタデータ) (2024-03-31T04:44:22Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。