Fugu-MT 論文翻訳(概要): Can Github issues be solved with Tree Of Thoughts?

論文の概要: Can Github issues be solved with Tree Of Thoughts?

arxiv url: http://arxiv.org/abs/2405.13057v1
Date: Mon, 20 May 2024 11:05:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 04:32:08.856475
Title: Can Github issues be solved with Tree Of Thoughts?
Title（参考訳）: Githubの問題はTree Of Thoughtsで解決できるだろうか?
Authors: Ricardo La Rosa, Corey Hulse, Bangdi Liu,
Abstract要約: 本研究は,LLMの意思決定能力と問題解決能力を高めるための言語モデル推論フレームワークであるTree of Thoughts(ToT)の導入について紹介する。私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While there have been extensive studies in code generation by large language models (LLM), where benchmarks like HumanEval have been surpassed with an impressive 96.3% success rate, these benchmarks predominantly judge a model's performance on basic function-level code generation and lack the critical thinking and concept of scope required of real-world scenarios such as solving GitHub issues. This research introduces the application of the Tree of Thoughts (ToT) language model reasoning framework for enhancing the decision-making and problem-solving abilities of LLMs for this complex task. Compared to traditional input-output (IO) prompting and Retrieval Augmented Generation (RAG) techniques, ToT is designed to improve performance by facilitating a structured exploration of multiple reasoning trajectories and enabling self-assessment of potential solutions. We experimentally deploy ToT in tackling a Github issue contained within an instance of the SWE-bench. However, our results reveal that the ToT framework alone is not enough to give LLMs the critical reasoning capabilities to outperform existing methods. In this paper we analyze the potential causes of these shortcomings and identify key areas for improvement such as deepening the thought process and introducing agentic capabilities. The insights of this research are aimed at informing future directions for refining the application of ToT and better harnessing the potential of LLMs in real-world problem-solving scenarios.
Abstract（参考訳）: 大規模な言語モデル(LLM)によるコード生成に関する広範な研究は、HumanEvalのようなベンチマークが96.3%の成功率で上回っているが、これらのベンチマークは主に、基本的な関数レベルのコード生成におけるモデルのパフォーマンスを判断し、GitHubの問題を解決するような現実のシナリオに必要なスコープの批判的思考と概念を欠いている。本研究では,この複雑な課題に対するLLMの意思決定能力と問題解決能力を高めるために,思考のツリー(ToT)言語モデル推論フレームワークの適用について紹介する。従来のインプット・アウトプット(IO)プロンプトとレトリーバル・オーグメンテッド・ジェネレーション(RAG)技術と比較して、ToTは複数の推論軌道の構造化探索を容易にし、潜在的な解の自己評価を可能にすることで性能を向上させるように設計されている。私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。しかし、この結果から、ToTフレームワークだけではLLMに既存のメソッドを上回る重要な理由付け能力を与えるには不十分であることが判明した。本稿では,これらの欠点の潜在的な原因を分析し,思考プロセスの深化やエージェント機能の導入など,改善のための重要な領域を特定する。本研究の知見は,ToTの応用と実世界の問題解決シナリオにおけるLCMの可能性を活かすための今後の方向性を示すことを目的としている。

関連論文リスト

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation [18.636244209466266]
Iteratively Improved Program Construction (IIPC) は、プログラム的推論チェーンを反復的に洗練し、実行フィードバックをベースLLMのネイティブチェーン能力と組み合わせる推論手法である。 IIPCは、複数のベース LLM 上の推論ベンチマークの大部分において、競合するアプローチを上回っている。
論文参考訳（メタデータ） (2026-02-03T19:13:31Z)
Understanding LLM-Centric Challenges for Deep Learning Frameworks: An Empirical Analysis [32.10519814607409]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにおいて大きな進歩をもたらした。ディープラーニング(DL)フレームワークは、効率的なモデル構築、分散実行、最適化されたデプロイメントを可能にすることによって、この基盤を提供する。 DLフレームワークのユーザビリティの低下、機能制限、微妙なバグにより、開発効率が損なわれ、深刻な障害やリソースの浪費を引き起こす可能性がある。
論文参考訳（メタデータ） (2025-06-16T05:45:03Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。 RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文参考訳（メタデータ） (2025-05-28T18:18:49Z)
THiNK: Can Large Language Models Think-aloud? [0.0]
ブルーム分類に基づく多エージェントフィードバック駆動評価フレームワークであるTHiNKを提案する。我々は、THiNKを7つの最先端言語モデルに適用し、その出力の認知分析を行う。結果は、モデルが確実に下位のカテゴリをうまく実行するが、現実的な文脈における知識の適用に苦慮していることを示している。
論文参考訳（メタデータ） (2025-05-26T16:27:02Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-17T01:21:39Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文参考訳（メタデータ） (2024-10-18T06:25:27Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T17:56:40Z)
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文参考訳（メタデータ） (2023-10-06T17:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。