論文の概要: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- arxiv url: http://arxiv.org/abs/2501.15056v1
- Date: Sat, 25 Jan 2025 03:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.495735
- Title: Feedback-Aware Monte Carlo Tree Search for Efficient Information Seeking in Goal-Oriented Conversations
- Title(参考訳): ゴール指向会話における効率的な情報探索のためのフィードバック対応モンテカルロ木探索
- Authors: Harshita Chopra, Chirag Shah,
- Abstract要約: 本稿では,情報ゲインを最大化する質問を生成するために,Large Language Models (LLM) を組み合わせた適応型質問応答手法を提案する。
本稿では,(1)潜在的な質問に対する探索と活用のバランスをとる適応MCTSアルゴリズム,(2)事前経験を生かして今後の対話を導くクラスタリングに基づくフィードバックアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.352944689413398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to identify and acquire missing information is a critical component of effective decision making and problem solving. With the rise of conversational artificial intelligence (AI) systems, strategically formulating information-seeking questions becomes crucial and demands efficient methods to guide the search process. We introduce a novel approach to adaptive question-asking through a combination of Large Language Models (LLM) for generating questions that maximize information gain, Monte Carlo Tree Search (MCTS) for constructing and leveraging a decision tree across multiple samples, and a hierarchical feedback mechanism to learn from past interactions. We present two key innovations: (1) an adaptive MCTS algorithm that balances exploration and exploitation for efficient search over potential questions; and (2) a clustering-based feedback algorithm that leverages prior experience to guide future interactions. Each incoming sample is assigned to a cluster based on its semantic similarity with previously observed samples. Our UCT (Upper Confidence bound for Trees) formulation selects optimal questions by combining expected rewards, a function of information gain, with a cluster-specific bonus that decays with depth, to emphasize the importance of early-stage questions that have proven effective for narrowing the solution space in similar samples. Experiments across three domains, including medical diagnosis and troubleshooting, demonstrate that our method leads to an average of 12% improvement in success rates and a 10x reduction in the average number of LLM calls made per conversation for the search process, in comparison to the state of the art.
- Abstract(参考訳): 行方不明の情報を識別し、取得する能力は、効果的な意思決定と問題解決の重要な要素である。
対話型人工知能(AI)システムの台頭に伴い、戦略的に情報探索の質問を定式化することが重要となり、探索プロセスを導く効率的な方法が要求される。
本稿では,情報ゲインを最大化する質問を生成するLarge Language Models (LLM) と,複数のサンプルにまたがる決定木の構築と活用を行うMonte Carlo Tree Search (MCTS) と,過去のインタラクションから学習する階層的フィードバック機構を組み合わせることで,適応型問合せ手法を提案する。
本稿では,(1)潜在的な質問に対する探索と活用のバランスをとる適応MCTSアルゴリズム,(2)事前経験を生かして今後の対話を導くクラスタリングに基づくフィードバックアルゴリズムを提案する。
それぞれのサンプルは、以前に観測されたサンプルと意味的類似性に基づいてクラスタに割り当てられる。
UCT(Upper Confidence bound for Trees)の定式化は,期待される報奨,情報ゲインの関数,深度で減衰するクラスタ固有のボーナスを組み合わせて最適解空間を狭めるのに有効な早期質問の重要性を強調する。
医療診断やトラブルシューティングを含む3領域にわたる実験により,本手法は平均12%の成功率の向上と,検索プロセスにおける会話毎のLLM呼び出し回数の10倍の削減につながることが示された。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Reasoning of Large Language Models over Knowledge Graphs with Super-Relations [53.14275361052276]
本稿では,ReKnoSフレームワークを提案する。
我々のフレームワークの主な利点は、スーパーリレーションを通して複数のリレーションパスを含めることである。
その結果、ReKnoSは既存の最先端ベースラインよりも優れた性能を示し、平均精度は2.92%向上した。
論文 参考訳(メタデータ) (2025-03-28T06:11:04Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - MCTS-KBQA: Monte Carlo Tree Search for Knowledge Base Question Answering [5.926690985669765]
本研究ではモンテカルロ木探索(MCTS)を利用した知識ベース質問応答(KBQA)における大規模言語モデル(LLM)の推論能力の向上について検討する。
我々は、オープンソース命令LLMの直接的プロンプトのみを必要とするステップワイズ報酬機構を慎重に設計する。
我々は,既存の質問-SPARQLデータセットの中間的推論プロセスを遠隔監視を用いて注釈付けすることで,KBQAコミュニティに新たなデータリソースを提供する。
論文 参考訳(メタデータ) (2025-02-19T04:58:39Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.57125498367907]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - A Deep Reinforcement Learning Approach for Interactive Search with
Sentence-level Feedback [12.712416630402119]
対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、より良いエクスペリエンスを提供することができる。
既存の最先端(SOTA)システムは、相互作用を組み込むために強化学習(RL)モデルを使用している。
しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。
この研究は、新しいディープQラーニング(DQ)アプローチであるDQrankを提案する。
論文 参考訳(メタデータ) (2023-10-03T18:45:21Z) - Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。
従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。
従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文 参考訳(メタデータ) (2022-12-21T20:53:44Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。