論文の概要: Can Github issues be solved with Tree Of Thoughts?
- arxiv url: http://arxiv.org/abs/2405.13057v1
- Date: Mon, 20 May 2024 11:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:32:08.856475
- Title: Can Github issues be solved with Tree Of Thoughts?
- Title(参考訳): Githubの問題はTree Of Thoughtsで解決できるだろうか?
- Authors: Ricardo La Rosa, Corey Hulse, Bangdi Liu,
- Abstract要約: 本研究は,LLMの意思決定能力と問題解決能力を高めるための言語モデル推論フレームワークであるTree of Thoughts(ToT)の導入について紹介する。
私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there have been extensive studies in code generation by large language models (LLM), where benchmarks like HumanEval have been surpassed with an impressive 96.3% success rate, these benchmarks predominantly judge a model's performance on basic function-level code generation and lack the critical thinking and concept of scope required of real-world scenarios such as solving GitHub issues. This research introduces the application of the Tree of Thoughts (ToT) language model reasoning framework for enhancing the decision-making and problem-solving abilities of LLMs for this complex task. Compared to traditional input-output (IO) prompting and Retrieval Augmented Generation (RAG) techniques, ToT is designed to improve performance by facilitating a structured exploration of multiple reasoning trajectories and enabling self-assessment of potential solutions. We experimentally deploy ToT in tackling a Github issue contained within an instance of the SWE-bench. However, our results reveal that the ToT framework alone is not enough to give LLMs the critical reasoning capabilities to outperform existing methods. In this paper we analyze the potential causes of these shortcomings and identify key areas for improvement such as deepening the thought process and introducing agentic capabilities. The insights of this research are aimed at informing future directions for refining the application of ToT and better harnessing the potential of LLMs in real-world problem-solving scenarios.
- Abstract(参考訳): 大規模な言語モデル(LLM)によるコード生成に関する広範な研究は、HumanEvalのようなベンチマークが96.3%の成功率で上回っているが、これらのベンチマークは主に、基本的な関数レベルのコード生成におけるモデルのパフォーマンスを判断し、GitHubの問題を解決するような現実のシナリオに必要なスコープの批判的思考と概念を欠いている。
本研究では,この複雑な課題に対するLLMの意思決定能力と問題解決能力を高めるために,思考のツリー(ToT)言語モデル推論フレームワークの適用について紹介する。
従来のインプット・アウトプット(IO)プロンプトとレトリーバル・オーグメンテッド・ジェネレーション(RAG)技術と比較して、ToTは複数の推論軌道の構造化探索を容易にし、潜在的な解の自己評価を可能にすることで性能を向上させるように設計されている。
私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。
しかし、この結果から、ToTフレームワークだけではLLMに既存のメソッドを上回る重要な理由付け能力を与えるには不十分であることが判明した。
本稿では,これらの欠点の潜在的な原因を分析し,思考プロセスの深化やエージェント機能の導入など,改善のための重要な領域を特定する。
本研究の知見は,ToTの応用と実世界の問題解決シナリオにおけるLCMの可能性を活かすための今後の方向性を示すことを目的としている。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。