論文の概要: ReTreVal: Reasoning Tree with Validation - A Hybrid Framework for Enhanced LLM Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2601.02880v1
- Date: Tue, 06 Jan 2026 10:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.884768
- Title: ReTreVal: Reasoning Tree with Validation - A Hybrid Framework for Enhanced LLM Multi-Step Reasoning
- Title(参考訳): ReTreVal: 検証付き推論ツリー - LLMマルチステップ推論のハイブリッドフレームワーク
- Authors: Abhishek HS, Pavan C Shekar, Arpit Jain, Ashwanth Krishnan,
- Abstract要約: ReTreValは、Tree-of-Thoughts探索、自己リファインメント、批判的スコアリング、リフレクションメモリを統合するハイブリッドフレームワークである。
ReTreValは500の数学的問題と創造的記述タスクにまたがってReAct,Reflexion,Self-Refineに対して評価する。
- 参考スコア(独自算出の注目度): 0.5133143243716792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-step reasoning remains a key challenge for Large Language Models (LLMs), particularly in complex domains such as mathematics and creative writing. While recent approaches including ReAct, Reflexion, and Self-Refine improve reasoning through iterative refinement and reflection, they often lack structured exploration of alternative solution paths and persistent learning across problems. We propose ReTreVal (Reasoning Tree with Validation), a hybrid framework that integrates Tree-of-Thoughts exploration, self-refinement, LLM-based critique scoring, and reflexion memory to enable bounded and validated multi-step reasoning. ReTreVal constructs a structured reasoning tree with adaptive depth based on problem complexity, where each node undergoes iterative self-critique and refinement guided by explicit LLM-generated feedback. A dual validation mechanism evaluates reasoning quality, coherence, and correctness at each node while persistently storing insights from successful reasoning paths and failure patterns in a reflexion memory buffer, enabling cross-problem learning. Critique-based pruning retains only the top-k highest-scoring nodes at each level, controlling computational cost while preserving high-quality solution paths. We evaluate ReTreVal against ReAct, Reflexion, and Self-Refine across 500 mathematical problems and creative writing tasks using Qwen 2.5 7B as the underlying LLM, and demonstrate that ReTreVal consistently outperforms existing methods through its combination of structured exploration, critique-driven refinement, and cross-problem memory, making it particularly effective for tasks requiring exploratory reasoning, rigorous verification, and knowledge transfer.
- Abstract(参考訳): マルチステップ推論は大規模言語モデル(LLM)にとって重要な課題であり、特に数学や創造的記述のような複雑な領域では重要な課題である。
ReAct、Reflexion、Self-Refineといった最近のアプローチは反復的な洗練とリフレクションを通じて推論を改善する一方で、代替ソリューションパスの構造化された探索や、問題を越えた永続的な学習を欠いていることが多い。
ReTreVal(Reasoning Tree with Validation)は,LLMに基づく批判的スコアリングと反射メモリを統合し,有界かつ検証された多段階推論を可能にするハイブリッドフレームワークである。
ReTreValは、各ノードが明示的なLLM生成フィードバックによって反復的な自己批判と改善を行うという問題複雑性に基づいて、適応的な深さを持つ構造的推論木を構築する。
二重検証機構は、各ノードにおける推論品質、コヒーレンス、正当性を評価しつつ、成功した推論経路や障害パターンからの洞察を反射メモリバッファに持続的に記憶し、クロスプロブレム学習を可能にする。
批判に基づくプルーニングは、各レベルでトップkの最高スコアノードのみを保持し、高品質なソリューションパスを維持しながら計算コストを制御する。
ReTreValは,500の数学的問題や創造的記述タスクに対して,基礎となるLLMとしてQwen 2.5 7Bを用いてReTreValを評価するとともに,構造化探索,批判駆動型洗練,クロスプロブレムメモリの組み合わせにより,既存の手法よりも一貫して優れており,探索的推論,厳密な検証,知識伝達を必要とするタスクに特に有効であることを示す。
関連論文リスト
- Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。