論文の概要: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- arxiv url: http://arxiv.org/abs/2501.15056v2
- Date: Fri, 30 May 2025 23:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.004853
- Title: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- Title(参考訳): ゴール指向会話における効率的な情報探索のためのフィードバック対応モンテカルロ木探索
- Authors: Harshita Chopra, Chirag Shah,
- Abstract要約: 本稿では,Large Language Models (LLMs) を利用して情報探索質問を生成する新しいフレームワークを提案する。
推測時間計画の一環として,情報獲得を最大化する質問を戦略的に選択する。
本研究は,目標指向対話における情報探索の促進にMCTSが有効であることを示すものである。
- 参考スコア(独自算出の注目度): 10.352944689413398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective decision-making and problem-solving in conversational systems require the ability to identify and acquire missing information through targeted questioning. A key challenge lies in efficiently narrowing down a large space of possible outcomes by posing questions that minimize uncertainty. To address this, we introduce a novel framework that leverages Large Language Models (LLMs) to generate information-seeking questions, with Monte Carlo Tree Search (MCTS) to strategically select questions that maximize information gain, as a part of inference-time planning. Our primary contribution includes a hierarchical feedback mechanism that exploits past interaction patterns to guide future strategy. Specifically, each new problem is mapped to a cluster based on semantic similarity, and our UCT (Upper Confidence bound for Trees) formulation employs a cluster-specific bonus reward to prioritize successful question trajectories that have proven effective for similar problems in the past. Extensive empirical evaluation across medical diagnosis and technical troubleshooting domains shows that our method achieves an average of 12% improvement in success rates and about 10x reduction in the number of LLM calls made for planning per conversation, compared to the state of the art. An additional 8% gain in success rate is observed on average when we start with a constrained set of possibilities. Our results underscore the efficacy of feedback-aware MCTS in enhancing information-seeking in goal-oriented dialogues.
- Abstract(参考訳): 会話システムにおける効果的な意思決定と問題解決は、ターゲットの質問を通じて行方不明情報を特定し、取得する能力を必要とする。
鍵となる課題は、不確実性を最小限に抑えるような疑問を提起することによって、可能な結果の広い空間を効率的に狭めることである。
これを解決するために,モンテカルロ木探索(MCTS)を用いて大規模言語モデル(LLM)を用いて情報探索質問を生成し,情報獲得を最大化する質問を,推論時計画の一部として戦略的に選択する手法を提案する。
私たちの主な貢献には、過去のインタラクションパターンを利用して将来の戦略を導く階層的なフィードバックメカニズムが含まれています。
具体的には、各新しい問題を意味的類似性に基づいてクラスタにマッピングし、UCT(Upper Confidence bound for Trees)の定式化では、過去に類似した問題に有効であることが証明された問題軌跡の優先順位付けに、クラスタ固有のボーナスが採用されている。
医療診断および技術的トラブルシューティング領域にわたる広範囲な経験的評価の結果,本手法は平均12%の成功率の向上と会話ごとのLCM呼び出し回数の約10倍の削減を実現していることがわかった。
制約された可能性セットから始めると、平均して8%以上の成功率が得られます。
本研究は,目標指向対話における情報探索の促進にMCTSが有効であることを示すものである。
関連論文リスト
- Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.57125498367907]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - A Deep Reinforcement Learning Approach for Interactive Search with
Sentence-level Feedback [12.712416630402119]
対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、より良いエクスペリエンスを提供することができる。
既存の最先端(SOTA)システムは、相互作用を組み込むために強化学習(RL)モデルを使用している。
しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。
この研究は、新しいディープQラーニング(DQ)アプローチであるDQrankを提案する。
論文 参考訳(メタデータ) (2023-10-03T18:45:21Z) - Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文 参考訳(メタデータ) (2022-12-21T20:53:44Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。