論文の概要: ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog
- arxiv url: http://arxiv.org/abs/2409.06097v1
- Date: Mon, 9 Sep 2024 22:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:40:45.174568
- Title: ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog
- Title(参考訳): ClarQ-LLM:タスク指向ダイアログにおける情報の明確化と要求のためのベンチマーク
- Authors: Yujian Gan, Changling Li, Jinxia Xie, Luou Wen, Matthew Purver, Massimo Poesio,
- Abstract要約: ClarQ-LLMは、バイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークである。
ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。
固定された対話コンテンツに基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、元のヒューマンプロバイダを複製するプロバイダ対話エージェントが含まれている。
- 参考スコア(独自算出の注目度): 11.585398152713505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ClarQ-LLM, an evaluation framework consisting of bilingual English-Chinese conversation tasks, conversational agents and evaluation metrics, designed to serve as a strong benchmark for assessing agents' ability to ask clarification questions in task-oriented dialogues. The benchmark includes 31 different task types, each with 10 unique dialogue scenarios between information seeker and provider agents. The scenarios require the seeker to ask questions to resolve uncertainty and gather necessary information to complete tasks. Unlike traditional benchmarks that evaluate agents based on fixed dialogue content, ClarQ-LLM includes a provider conversational agent to replicate the original human provider in the benchmark. This allows both current and future seeker agents to test their ability to complete information gathering tasks through dialogue by directly interacting with our provider agent. In tests, LLAMA3.1 405B seeker agent managed a maximum success rate of only 60.05\%, showing that ClarQ-LLM presents a strong challenge for future research.
- Abstract(参考訳): ClarQ-LLMはバイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークで、タスク指向の対話において、エージェントが明確化を問う能力を評価するための強力なベンチマークとして機能するように設計されている。
ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。
シナリオでは、不確実性を解決するために質問をし、タスクを完了するために必要な情報を集める必要がある。
固定された対話内容に基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、ベンチマークで元のヒューマンプロバイダを複製するプロバイダ会話エージェントが含まれている。
これにより、現在の検索エージェントと将来の検索エージェントの両方が、プロバイダエージェントと直接対話することで、対話を通じて情報収集タスクを完了させる機能をテストすることができます。
LLAMA3.1 405B 探索剤は最大成功率は 60.05 % しかなく、ClarQ-LLM が将来の研究に強い挑戦をしていることを示している。
関連論文リスト
- Redefining Proactivity for Information Seeking Dialogue [8.986976693850869]
Information-Seeking Dialogue (ISD) エージェントは、ユーザのクエリに対して正確な応答を提供することを目的としている。
生成した各反応の「積極性」を高めることに焦点を当てた新規な積極性定義を提案する。
2,000の単ターン会話からなるプロアクティブ対話データセットを構築し、応答のプロアクティブ性を評価するためにいくつかの自動メトリクスを導入する。
論文 参考訳(メタデータ) (2024-10-20T05:57:10Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions [68.81939215223818]
ProductAgentは,戦略的明確化質問生成機能と動的製品検索機能を備えた対話情報探索エージェントである。
我々は,製品特徴の要約,クエリ生成,製品検索のための戦略を持ったエージェントを開発する。
実験の結果,ProductAgentはユーザとポジティブに対話し,対話のターンの増加に伴う検索性能の向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T03:50:23Z) - TREC iKAT 2023: A Test Collection for Evaluating Conversational and Interactive Knowledge Assistants [10.511277428023305]
TREC Interactive Knowledge Assistance Track (iKAT) コレクションは、研究者が会話検索エージェント(CSA)をテストおよび評価できるようにすることを目的としている。
このコレクションには、20のトピックにまたがる36のパーソナライズされた対話が含まれており、それぞれにパーソナライズされたユーザペルソナを定義するPersonal Text Knowledge Base (PTKB)が組み合わされている。
約26,000の通路を持つ344の旋回は、関連性の評価、および4つの重要な次元(妥当性、完全性、基底性、自然性)で生成された応答に関する追加評価として提供される。
論文 参考訳(メタデータ) (2024-05-04T11:22:16Z) - Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems [29.394466123216258]
本研究は,対話エージェントの主要な特徴,対応するオープンドメインデータセット,およびこれらのデータセットをベンチマークする手法について概説する。
我々は,既存のデータセットの会話から構築された統一dIalogue dataseTであるUNITを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:05:47Z) - DialogQAE: N-to-N Question Answer Pair Extraction from Customer Service
Chatlog [34.69426306212259]
そこで,N-to-NQA抽出タスクを提案する。
5つのカスタマサービスデータセット上で良好に機能する、エンドツーエンドと2段階のバリエーションを備えた、生成的/識別的タグ付けベースの一連の方法を紹介します。
論文 参考訳(メタデータ) (2022-12-14T09:05:14Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。