論文の概要: Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment
- arxiv url: http://arxiv.org/abs/2502.13170v2
- Date: Wed, 26 Feb 2025 02:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:15.529170
- Title: Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment
- Title(参考訳): 仮説分解と修正によるコード推論の魔法の解明
- Authors: Yuze Zhao, Tianyun Ji, Wenjun Feng, Zhenya Huang, Qi Liu, Zhiding Liu, Yixiao Ma, Kai Zhang, Enhong Chen,
- Abstract要約: 我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
- 参考スコア(独自算出の注目度): 54.62926010621013
- License:
- Abstract: The reasoning abilities are one of the most enigmatic and captivating aspects of large language models (LLMs). Numerous studies are dedicated to exploring and expanding the boundaries of this reasoning capability. However, tasks that embody both reasoning and recall characteristics are often overlooked. In this paper, we introduce such a novel task, code reasoning, to provide a new perspective for the reasoning abilities of LLMs. We summarize three meta-benchmarks based on established forms of logical reasoning, and instantiate these into eight specific benchmark tasks. Our testing on these benchmarks reveals that LLMs continue to struggle with identifying satisfactory reasoning pathways. Additionally, we present a new pathway exploration pipeline inspired by human intricate problem-solving methods. This Reflective Hypothesis Decomposition and Amendment (RHDA) pipeline consists of the following iterative steps: (1) Proposing potential hypotheses based on observations and decomposing them; (2) Utilizing tools to validate hypotheses and reflection outcomes; (3) Revising hypothesis in light of observations. Our approach effectively mitigates logical chain collapses arising from forgetting or hallucination issues in multi-step reasoning, resulting in performance gains of up to $3\times$. Finally, we expanded this pipeline by applying it to simulate complex household tasks in real-world scenarios, specifically in VirtualHome, enhancing the handling of failure cases. We release our code and all of results at https://github.com/TnTWoW/code_reasoning.
- Abstract(参考訳): 推論能力は、大きな言語モデル(LLM)の最もエニグマティックで魅了的な側面の1つである。
この推論能力の境界の探索と拡張に多くの研究が費やされている。
しかし、推論特性とリコール特性の両方を具現化したタスクはしばしば見過ごされる。
本稿では,LLMの推論能力に対する新たな視点を提供するために,コード推論という新しいタスクを導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
これらのベンチマークテストの結果,LSMは良好な推論経路の特定に苦戦していることが明らかとなった。
また,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
この反射仮説分解・修正(RHDA)パイプラインは,(1)観測と分解に基づく潜在的な仮説の提示,(2)仮説と反射結果の検証ツールの利用,(3)観測を照らして仮説を再検討する,という反復的なステップで構成されている。
提案手法は,多段階推論における忘れや幻覚の問題に起因する論理的連鎖崩壊を効果的に軽減し,最大3/times$の性能向上をもたらす。
最後に、このパイプラインを拡張して、実際のシナリオ、特にVirtualHomeにおける複雑な家庭用タスクをシミュレートし、障害ケースのハンドリングを強化しました。
コードと結果はすべてhttps://github.com/TnTWoW/code_reasoning.comで公開しています。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Is Depth All You Need? An Exploration of Iterative Reasoning in LLMs [11.896234713853298]
問題の解答に直接寄与する関連する知識が、最初の推論経路から活性化されるかどうかを考察する。
実験の結果,初期推論経路の多様性を増大させることで,同等あるいは優れた性能が得られることがわかった。
そこで本研究では,文脈探索とサンプリングランダム性の低減を両立させることにより,推論幅を向上させる簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-02-15T16:59:59Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Hypothesis Search: Inductive Reasoning with Language Models [39.03846394586811]
最近の研究は「文脈学習」を直接促すことで帰納的推論タスクにおける大規模言語モデルの評価を行っている
これは単純な帰納的タスクではうまく機能するが、Abstraction and Reasoning Corpus (ARC)のような複雑なタスクではうまく機能しない。
本研究では,複数の抽象レベルで明示的な仮説を生成することにより,LLMの帰納的推論能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-09-11T17:56:57Z) - Abstract Reasoning via Logic-guided Generation [65.92805601327649]
抽象的推論、すなわち、与えられた観測から複雑なパターンを推測することは、人工知能の中心的な構成要素である。
本稿では,後者のアプローチの枠組みを設計し,人工知能と人間の知能のギャップを埋めることを目的とする。
本稿では,提案する論理の最適化問題として,抽象的推論を削減した新しい生成型DNNフレームワークであるLoGeを提案する。
論文 参考訳(メタデータ) (2021-07-22T07:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。