論文の概要: Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.10543v1
- Date: Thu, 15 May 2025 17:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.450307
- Title: Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models
- Title(参考訳): 大規模言語モデルにおける推論能力のより深い理解に向けて
- Authors: Annie Wong, Thomas Bäck, Aske Plaat, Niki van Stein, Anna V. Kononova,
- Abstract要約: 本研究は, 自己回帰, 突然変異, 計画の有効性を, エージェントの適応能力を試験するための技術として体系的に評価する。
動的環境における様々なオープンソース言語モデルを用いて実験を行う。
より大きなモデルは一般的により小さなモデルよりも優れていますが、戦略的なプロンプトはこのパフォーマンスギャップを埋めることができます。
- 参考スコア(独自算出の注目度): 0.017476232824732776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models demonstrate impressive performance on static benchmarks, the true potential of large language models as self-learning and reasoning agents in dynamic environments remains unclear. This study systematically evaluates the efficacy of self-reflection, heuristic mutation, and planning as prompting techniques to test the adaptive capabilities of agents. We conduct experiments with various open-source language models in dynamic environments and find that larger models generally outperform smaller ones, but that strategic prompting can close this performance gap. Second, a too-long prompt can negatively impact smaller models on basic reactive tasks, while larger models show more robust behaviour. Third, advanced prompting techniques primarily benefit smaller models on complex games, but offer less improvement for already high-performing large language models. Yet, we find that advanced reasoning methods yield highly variable outcomes: while capable of significantly improving performance when reasoning and decision-making align, they also introduce instability and can lead to big performance drops. Compared to human performance, our findings reveal little evidence of true emergent reasoning. Instead, large language model performance exhibits persistent limitations in crucial areas such as planning, reasoning, and spatial coordination, suggesting that current-generation large language models still suffer fundamental shortcomings that may not be fully overcome through self-reflective prompting alone. Reasoning is a multi-faceted task, and while reasoning methods like Chain of thought improves multi-step reasoning on math word problems, our findings using dynamic benchmarks highlight important shortcomings in general reasoning capabilities, indicating a need to move beyond static benchmarks to capture the complexity of reasoning.
- Abstract(参考訳): 大規模言語モデルは静的なベンチマークで顕著なパフォーマンスを示すが、動的環境における自己学習や推論エージェントとしての大規模言語モデルの真の可能性はいまだ不明である。
本研究は, 自己回帰, ヒューリスティック変異, 計画の有効性を, エージェントの適応能力を試験するための技術として, 系統的に評価する。
動的環境における様々なオープンソース言語モデルによる実験を行い、より大きなモデルは一般的により小さい言語よりも優れていますが、戦略的なプロンプトはこのパフォーマンスギャップを埋めることができます。
第二に、あまりに長いプロンプトは、基本的なリアクティブタスクにおいて小さなモデルに悪影響を及ぼすが、大きなモデルはより堅牢な振る舞いを示す。
第3に、高度なプロンプト技術は、主に複雑なゲームにおいてより小さなモデルに恩恵を与えるが、既に高性能な大規模言語モデルでは改善されない。
しかし、高度な推論手法は、推論と意思決定の整合性においてパフォーマンスを著しく向上させることができる一方で、不安定性を導入し、大きなパフォーマンス低下をもたらす可能性がある。
人間の成績と比較すると,本症例は真の創発的推論の証拠がほとんどない。
代わりに、大規模言語モデルのパフォーマンスは、計画、推論、空間的調整といった重要な領域において永続的な制限を示しており、現在の世代の大規模言語モデルは、自己回帰的なプロンプトだけでは完全に克服できないような根本的な欠点をまだ抱えていることを示唆している。
推論は多面的課題であり, 思考の連鎖のような推論手法は数語問題における多段階推論を改善するが, 動的ベンチマークを用いた研究結果は, 推論の複雑さを捉えるために静的なベンチマークを超える必要があることを示す重要な欠点を浮き彫りにしている。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models [29.763745375790933]
大規模言語モデル(LLM)はプロンプトに敏感であり、別の同義語表現やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。
我々は,LLMの使いやすさを評価し,実際の使用状況をシミュレートしたE-Benchを構築した。
論文 参考訳(メタデータ) (2024-06-16T14:08:30Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文 参考訳(メタデータ) (2022-06-15T17:32:01Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。