論文の概要: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- arxiv url: http://arxiv.org/abs/2501.15056v1
- Date: Sat, 25 Jan 2025 03:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:14.492310
- Title: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- Title(参考訳): ゴール指向会話における効率的な情報探索のためのフィードバック対応モンテカルロ木探索
- Authors: Harshita Chopra, Chirag Shah,
- Abstract要約: 本稿では,情報ゲインを最大化する質問を生成するために,Large Language Models (LLM) を組み合わせた適応型質問応答手法を提案する。
本稿では,(1)潜在的な質問に対する探索と活用のバランスをとる適応MCTSアルゴリズム,(2)事前経験を生かして今後の対話を導くクラスタリングに基づくフィードバックアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.352944689413398
- License:
- Abstract: The ability to identify and acquire missing information is a critical component of effective decision making and problem solving. With the rise of conversational artificial intelligence (AI) systems, strategically formulating information-seeking questions becomes crucial and demands efficient methods to guide the search process. We introduce a novel approach to adaptive question-asking through a combination of Large Language Models (LLM) for generating questions that maximize information gain, Monte Carlo Tree Search (MCTS) for constructing and leveraging a decision tree across multiple samples, and a hierarchical feedback mechanism to learn from past interactions. We present two key innovations: (1) an adaptive MCTS algorithm that balances exploration and exploitation for efficient search over potential questions; and (2) a clustering-based feedback algorithm that leverages prior experience to guide future interactions. Each incoming sample is assigned to a cluster based on its semantic similarity with previously observed samples. Our UCT (Upper Confidence bound for Trees) formulation selects optimal questions by combining expected rewards, a function of information gain, with a cluster-specific bonus that decays with depth, to emphasize the importance of early-stage questions that have proven effective for narrowing the solution space in similar samples. Experiments across three domains, including medical diagnosis and troubleshooting, demonstrate that our method leads to an average of 12% improvement in success rates and a 10x reduction in the average number of LLM calls made per conversation for the search process, in comparison to the state of the art.
- Abstract(参考訳): 行方不明の情報を識別し、取得する能力は、効果的な意思決定と問題解決の重要な要素である。
対話型人工知能(AI)システムの台頭に伴い、戦略的に情報探索の質問を定式化することが重要となり、探索プロセスを導く効率的な方法が要求される。
本稿では,情報ゲインを最大化する質問を生成するLarge Language Models (LLM) と,複数のサンプルにまたがる決定木の構築と活用を行うMonte Carlo Tree Search (MCTS) と,過去のインタラクションから学習する階層的フィードバック機構を組み合わせることで,適応型問合せ手法を提案する。
本稿では,(1)潜在的な質問に対する探索と活用のバランスをとる適応MCTSアルゴリズム,(2)事前経験を生かして今後の対話を導くクラスタリングに基づくフィードバックアルゴリズムを提案する。
それぞれのサンプルは、以前に観測されたサンプルと意味的類似性に基づいてクラスタに割り当てられる。
UCT(Upper Confidence bound for Trees)の定式化は,期待される報奨,情報ゲインの関数,深度で減衰するクラスタ固有のボーナスを組み合わせて最適解空間を狭めるのに有効な早期質問の重要性を強調する。
医療診断やトラブルシューティングを含む3領域にわたる実験により,本手法は平均12%の成功率の向上と,検索プロセスにおける会話毎のLLM呼び出し回数の10倍の削減につながることが示された。
関連論文リスト
- Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - A Deep Reinforcement Learning Approach for Interactive Search with
Sentence-level Feedback [12.712416630402119]
対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、より良いエクスペリエンスを提供することができる。
既存の最先端(SOTA)システムは、相互作用を組み込むために強化学習(RL)モデルを使用している。
しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。
この研究は、新しいディープQラーニング(DQ)アプローチであるDQrankを提案する。
論文 参考訳(メタデータ) (2023-10-03T18:45:21Z) - Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文 参考訳(メタデータ) (2022-12-21T20:53:44Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。