論文の概要: YIELD: A Large-Scale Dataset and Evaluation Framework for Information Elicitation Agents
- arxiv url: http://arxiv.org/abs/2604.10968v1
- Date: Mon, 13 Apr 2026 04:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.311482
- Title: YIELD: A Large-Scale Dataset and Evaluation Framework for Information Elicitation Agents
- Title(参考訳): YIELD: 情報伝達エージェントのための大規模データセットと評価フレームワーク
- Authors: Victor De Lima, Grace Hui Yang,
- Abstract要約: エージェントの目的は,エージェントの組織的あるいはタスク指向の目的を支援するために,ユーザから情報を引き出すことである。
この設定を体系的に研究するために,倫理的に源を発する2,281人の人間と人間との対話を26MのデータセットであるYIELDを提案する。
我々は,情報収集を有限水平POMDPとして定式化し,IEAに適した新しいメトリクスを提案する。
- 参考スコア(独自算出の注目度): 3.909651701500542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most conversational agents (CAs) are designed to satisfy user needs through user-driven interactions. However, many real-world settings, such as academic interviewing, judicial proceedings, and journalistic investigations, involve broader institutional decision-making processes and require agents that can elicit information from users. In this paper, we introduce Information Elicitation Agents (IEAs) in which the agent's goal is to elicit information from users to support the agent's institutional or task-oriented objectives. To enable systematic research on this setting, we present YIELD, a 26M-token dataset of 2,281 ethically sourced, human-to-human dialogues. Moreover, we formalize information elicitation as a finite-horizon POMDP and propose novel metrics tailored to IEAs. Pilot experiments on multiple foundation LLMs show that training on YIELD improves their alignment with real elicitation behavior and findings are corroborated by human evaluation. We release YIELD under CC BY 4.0. The dataset, project code, evaluation tools, and fine-tuned model adapters are available at: https://github.com/infosenselab/yield.
- Abstract(参考訳): ほとんどの会話エージェント(CA)は、ユーザ主導のインタラクションを通じてユーザニーズを満たすように設計されている。
しかし、学術面接、司法手続、ジャーナリストによる調査などの現実的な環境には、より広範な制度的な意思決定プロセスが含まれており、ユーザーから情報を引き出すことができるエージェントが必要である。
本稿では,エージェントの組織的目的やタスク指向の目的を支援するために,エージェントがユーザから情報を引き出すことを目標とする情報伝達エージェント(IEAs)を紹介する。
この設定を体系的に研究するために,倫理的に源を発する2,281人の人間と人間との対話を26MのデータセットであるYIELDを提案する。
さらに,情報収集を有限水平POMDPとして定式化し,IEAに適した新しいメトリクスを提案する。
複数の基礎 LLM の試験実験により,YIELD のトレーニングにより実際の誘発行動との整合性が向上し,人体評価による相関が認められた。
CC BY 4.0 で YIELD をリリースする。
データセット、プロジェクトコード、評価ツール、微調整されたモデルアダプタは、https://github.com/infosenselab/yield.comで入手できる。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems [6.8738526619759535]
タスク指向対話(TOD)モデルを評価するために、オフラインデータセットが使用されている。
コンテキスト対応のユーザエージェントは、人間の会話の多様性と予測不能をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-15T06:05:45Z) - Towards a RAG-based Summarization Agent for the Electron-Ion Collider [0.5504260452953508]
A Retrieval Augmented Generation (RAG)ベースのEIC用要約AI(RAGS4EIC)が開発中である。
このAIエージェントは情報を凝縮するだけでなく、関連する応答を効果的に参照する。
まず、関連するすべての実験情報を含む包括的ベクトルデータベースを問合せし、次に、Large Language Model(LLM)を用いて、ユーザクエリと検索データに基づく引用に富んだ簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-03-23T05:32:46Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。