論文の概要: Mission Impossible: Feedback-Guided Dynamic Interactive Planning for Improving Reasoning on LLMs
- arxiv url: http://arxiv.org/abs/2510.05577v1
- Date: Tue, 07 Oct 2025 04:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.102574
- Title: Mission Impossible: Feedback-Guided Dynamic Interactive Planning for Improving Reasoning on LLMs
- Title(参考訳): Mission Impossible: LLMにおける推論改善のためのフィードバックガイド動的インタラクティブプランニング
- Authors: Dong Yan, Gaochen Wu, Bowen Zhou,
- Abstract要約: 本稿では,LLMにおける推論の強化を目的とした新しいフレームワークである,フィードバックガイド型動的インタラクティブプランニング(FGDIP)を提案する。
私たちのアプローチは、推論プロセスにおいて初期ノードとして機能する問題に関連する重要なエンティティを識別することから始まります。
次に、履歴エラー分析とリアルタイムフィードバックを組み合わせることで、プロセスが洗練されている子ノードを推論する。
実験の結果、FGDIPはHotpotQAデータセットで54.47%、StrategyQAデータセットで70.05%を達成した。
- 参考スコア(独自算出の注目度): 12.846184459624462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language agents have led to significant improvements in multi-hop reasoning tasks. However, existing approaches often struggle with handling open-domain problems, which require massive information retrieval due to their reliance on a fixed sequence of actions. To address this, we propose Feedback-Guided Dynamic Interactive Planning (FGDIP), a novel framework tailored to enhance reasoning in LLMs by utilizing dynamic and adaptive strategies for information exploration in open-domain multi-hop reasoning tasks. Our approach begins by identifying key entities relevant to the problem, which serve as the initial nodes in the reasoning process. From these initial nodes, we then generate reasoning child nodes with the process being refined through a combination of historical error analysis and real-time feedback, which allows the framework to dynamically adjust and optimize its reasoning strategies. By integrating depth-first search with an innovative node generation technique, our framework adapts based on both prior error paths and concurrently generated nodes at the same hierarchical level. This dynamic strategy effectively expands the search space while ensuring the reasoning process systematically converges toward accurate solutions. Experimental results show that FGDIP achieved up to 54.47% F1 score on the HotpotQA dataset and 70.05% on the StrategyQA dataset, surpassing the best baseline by 5.03% and 7.25% respectively, highlighting its versatility and potential to enhance language agents in multi-hop reasoning tasks.
- Abstract(参考訳): 近年の言語エージェントの進歩により、マルチホップ推論タスクが大幅に改善されている。
しかし、既存のアプローチは、固定された一連のアクションに依存するため、膨大な情報検索を必要とする、オープンドメインの問題に対処するのにしばしば苦労する。
そこで我々は,オープンドメインマルチホップ推論タスクにおける情報探索のための動的かつ適応的な戦略を活用することで,LLMにおける推論を強化するための新しいフレームワークであるFGDIPを提案する。
私たちのアプローチは、推論プロセスにおいて初期ノードとして機能する問題に関連する重要なエンティティを識別することから始まります。
これらの初期ノードから、履歴エラー分析とリアルタイムフィードバックを組み合わせることで、プロセスが洗練され、推論戦略を動的に調整し、最適化することが可能な、推論子ノードを生成する。
提案手法は,新しいノード生成手法と深度優先探索を統合することで,従来のエラーパスと同時生成ノードの両方を同じ階層レベルで適用する。
この動的戦略は探索空間を効果的に拡張し、推論過程が正確な解に体系的に収束することを保証する。
実験の結果、FGDIPはHotpotQAデータセットで54.47%、StrategyQAデータセットで70.05%に達し、それぞれ5.03%、そして7.25%を超えた。
関連論文リスト
- GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - GPO: Learning from Critical Steps to Improve LLM Reasoning [13.271737599933147]
textbfGuided textbfPivotal textbfOptimization (GPO)を導入する。
GPOは様々な最適化手法と統合して推論性能を向上させるための一般的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-19T22:30:23Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [11.377241012645994]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - PGSO: Prompt-based Generative Sequence Optimization Network for Aspect-based Sentiment Analysis [9.617652261815671]
ルールベースの静的最適化とスコアベースの動的最適化という2つのシーケンス最適化戦略を導入する。
動的最適化構造に基づいて、統一されたPromptベースの生成系列最適化ネットワーク(PGSO)を提案する。
複数のベンチマークで4つのABSAタスクで実施された実験は、PGSOが最先端の手法より優れており、F1スコアの平均3.52%改善していることを示している。
論文 参考訳(メタデータ) (2024-12-01T10:49:55Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。