Fugu-MT 論文翻訳(概要): PlanU: Large Language Model Reasoning through Planning under Uncertainty

論文の概要: PlanU: Large Language Model Reasoning through Planning under Uncertainty

arxiv url: http://arxiv.org/abs/2510.18442v2
Date: Wed, 05 Nov 2025 02:40:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-06 18:19:32.145792
Title: PlanU: Large Language Model Reasoning through Planning under Uncertainty
Title（参考訳）: PlanU: 不確実なプランニングによる大規模言語モデル推論
Authors: Ziwei Deng, Mian Deng, Chenjing Liang, Zeming Gao, Chennan Ma, Chenxing Lin, Haipeng Zhang, Songzhu Mei, Siqi Shen, Cheng Wang,
Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクで研究されている。 LLMは、人間にとって比較的容易な不確実性の下で、推論タスクに苦労することがある。モンテカルロ木探索における不確実性を捉えるLLMベースのプランニング手法であるPlanUを紹介する。
参考スコア（独自算出の注目度）: 18.52550377318156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly being explored across a range of reasoning tasks. However, LLMs sometimes struggle with reasoning tasks under uncertainty that are relatively easy for humans, such as planning actions in stochastic environments. The adoption of LLMs for reasoning is impeded by uncertainty challenges, such as LLM uncertainty and environmental uncertainty. LLM uncertainty arises from the stochastic sampling process inherent to LLMs. Most LLM-based Decision-Making (LDM) approaches address LLM uncertainty through multiple reasoning chains or search trees. However, these approaches overlook environmental uncertainty, which leads to poor performance in environments with stochastic state transitions. Some recent LDM approaches deal with uncertainty by forecasting the probability of unknown variables. However, they are not designed for multi-step reasoning tasks that require interaction with the environment. To address uncertainty in LLM decision-making, we introduce PlanU, an LLM-based planning method that captures uncertainty within Monte Carlo Tree Search (MCTS). PlanU models the return of each node in the MCTS as a quantile distribution, which uses a set of quantiles to represent the return distribution. To balance exploration and exploitation during tree search, PlanU introduces an Upper Confidence Bounds with Curiosity (UCC) score which estimates the uncertainty of MCTS nodes. Through extensive experiments, we demonstrate the effectiveness of PlanU in LLM-based reasoning tasks under uncertainty.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な推論タスクで研究されている。しかしながら、LSMは確率的環境における計画行動など、人間にとって比較的容易な不確実性の下での推論タスクに苦労することがある。 LLMの推論への採用は、LCMの不確実性や環境不確実性といった不確実性の問題によって妨げられている。 LLMの不確実性は、LLM固有の確率的サンプリングプロセスから生じる。 LLMベースの意思決定(LDM)アプローチは、複数の推論チェーンや探索ツリーを通じてLCMの不確実性に対処する。しかし、これらのアプローチは環境の不確実性を見落とし、確率的状態遷移を伴う環境での性能が低下する。最近のLCMアプローチでは、未知変数の確率を予測することによって不確実性を扱う。しかし、環境との相互作用を必要とする多段階推論タスクのためには設計されていない。 LLM決定の不確実性に対処するため,モンテカルロ木探索 (MCTS) における不確実性を把握するLLMベースのプランニング手法であるPlanUを導入する。 PlanUは、MCTS内の各ノードの戻りを量子分布としてモデル化する。木探索における探索と利用のバランスをとるため、PlanUはCuriosity (UCC) スコア付きアッパー信頼境界を導入し、MCTSノードの不確実性を推定する。広範囲な実験を通じて,不確実性を考慮したLLMに基づく推論タスクにおけるPlanUの有効性を実証した。

関連論文リスト

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。 LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文参考訳（メタデータ） (2026-02-02T13:46:56Z)
Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。 LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文参考訳（メタデータ） (2025-10-09T10:26:58Z)
Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文参考訳（メタデータ） (2025-08-08T14:46:35Z)
WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文参考訳（メタデータ） (2025-07-22T03:21:48Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
Unlocking the Power of LLM Uncertainty for Active In-Context Example Selection [6.813733517894384]
Uncertainty Tripartite Testing Paradigm (Unc-TTP)は、LLM(Large Language Models)を分類する新しい手法である。 Unc-TTPは、異なるラベル注入干渉下で3ラウンドのサンプリングを行い、全ての可能な結果を列挙する。本実験は,Unc-TTPを用いて選択した不確実性例が確実性例よりも有益であることを示す。
論文参考訳（メタデータ） (2024-08-17T11:33:23Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。 LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文参考訳（メタデータ） (2024-04-24T17:10:35Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Tree of Uncertain Thoughts Reasoning for Large Language Models [19.926757833392212]
大規模言語モデル(LLM)に適した推論フレームワークTouT(Tree of Uncertain Thoughts)を紹介します。我々のTouTはモンテカルロ・ドロップアウトを効果的に利用し、これらの中間段階におけるLLMの多様な局所応答に関連する不確実性スコアを定量化する。我々は,ゲーム・オブ・24(Game of 24)とミニ・クロスワード(Mini Crosswords)の2つの要求する計画課題について,厳密な実験を行った。
論文参考訳（メタデータ） (2023-09-14T13:14:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。