論文の概要: RPS: Information Elicitation with Reinforcement Prompt Selection
- arxiv url: http://arxiv.org/abs/2604.13817v1
- Date: Wed, 15 Apr 2026 12:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.541686
- Title: RPS: Information Elicitation with Reinforcement Prompt Selection
- Title(参考訳): RPS:強化プロンプト選択による情報伝達
- Authors: Tao Wang, Jingyao Lu, Xibo Wang, Haonan Huang, Su Yao, Zhiqiang Hu, Xingyan Chen, Enmao Diao,
- Abstract要約: 多くの対話型AIアプリケーションでは、プライバシの懸念やあいまいさ、社会的なため、ユーザは機密性や不確実性のある情報を無視することが多い。
本稿では,素早い選択を逐次決定問題として定式化する軽量強化学習フレームワークであるReinforcement Prompt Selection (RPS)を提案する。
RPSは、対話を通じてユーザから隠蔽または不完全表現された情報を適応的に引き出す一連のプロンプトのプールに関するポリシーを学習する。
- 参考スコア(独自算出の注目度): 16.448966784570313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in dialogue generation and reasoning, yet their effectiveness in eliciting user-known but concealed information in open-ended conversations remains limited. In many interactive AI applications, such as personal assistants, tutoring systems, and legal or clinical support, users often withhold sensitive or uncertain information due to privacy concerns, ambiguity, or social hesitation. This makes it challenging for LLMs to gather complete and contextually relevant inputs. In this work, we define the problem of information elicitation in open-ended dialogue settings and propose Reinforcement Prompt Selection (RPS), a lightweight reinforcement learning framework that formulates prompt selection as a sequential decision-making problem. To analyze this problem in a controlled setting, we design a synthetic experiment, where a reinforcement learning agent outperforms a random query baseline, illustrating the potential of policy-based approaches for adaptive information elicitation. Building on this insight, RPS learns a policy over a pool of prompts to adaptively elicit concealed or incompletely expressed information from users through dialogue. We also introduce IELegal, a new benchmark dataset constructed from real legal case documents, which simulates dialogue-based information elicitation tasks aimed at uncovering case-relevant facts. In this setting, RPS outperforms static prompt baselines, demonstrating the effectiveness of adaptive prompt selection for eliciting critical information in LLM-driven dialogue systems.
- Abstract(参考訳): 大規模言語モデル (LLM) は対話生成や推論において顕著な能力を示したが, オープンエンドの会話において, ユーザの知名度が高いが隠蔽された情報を引き出す効果は依然として限られている。
パーソナルアシスタント、チューターシステム、法的または臨床的サポートなどの多くの対話型AIアプリケーションでは、ユーザーはプライバシーの懸念、あいまいさ、社会的なため、敏感または不確実な情報を保持しないことが多い。
このため、LLMが完全かつ文脈的に関連する入力を収集することは困難である。
本研究では,オープンエンド対話環境における情報活用の問題を定義し,迅速な選択を逐次決定問題として定式化する軽量強化学習フレームワークであるReinforcement Prompt Selection (RPS)を提案する。
制御された環境でこの問題を分析するために、強化学習エージェントがランダムなクエリベースラインを上回り、適応的な情報誘導のためのポリシーに基づくアプローチの可能性を示す合成実験を設計する。
この洞察に基づいて、RSSはユーザーから隠された情報や不完全な情報を引き出すためのプロンプトのプールに関するポリシーを学習する。
また、実際の訴訟文書から構築された新しいベンチマークデータセットであるIELegalを導入し、ケース関連事実を明らかにするための対話ベースの情報引用タスクをシミュレートする。
この設定では、RCSは静的なプロンプトベースラインよりも優れており、LLM駆動対話システムにおいて重要な情報を引き出すための適応的なプロンプト選択の有効性を示す。
関連論文リスト
- PrivacyPAD: A Reinforcement Learning Framework for Dynamic Privacy-Aware Delegation [33.37227619820212]
この問題を解決するために、プライバシPADと呼ばれる新しい強化学習フレームワークを導入する。
我々のフレームワークは、エージェントにテキストチャンクを動的にルーティングするように訓練し、プライバシリークとタスクパフォーマンスのトレードオフを最適にバランスさせるポリシーを学ぶ。
当社のフレームワークは,プライバシ・ユーティリティ・フロンティアにおける新たな最先端を実現する。
論文 参考訳(メタデータ) (2025-10-16T19:38:36Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。
SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:03:52Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。