論文の概要: InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context
- arxiv url: http://arxiv.org/abs/2502.12257v1
- Date: Mon, 17 Feb 2025 19:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:24.170918
- Title: InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context
- Title(参考訳): InfoQuest: 隠れコンテキストによるオープンエンディング会話のためのマルチターン対話エージェントの評価
- Authors: Bryan L. M. de Oliveira, Luana G. B. Martins, Bruno Brandão, Luckeciano C. Melo,
- Abstract要約: オープンエンドのユーザリクエストにおいて、対話エージェントが隠れコンテキストをどのように扱うかを評価するために設計されたベンチマークであるInfoQuestを紹介する。
我々の評価では、プロプライエタリなモデルの方が一般的に優れているが、現在のアシスタントはすべて、重要な情報を効果的に収集するのに苦労している。
- 参考スコア(独自算出の注目度): 4.262907114077643
- License:
- Abstract: While large language models excel at following explicit instructions, they often struggle with ambiguous or incomplete user requests, defaulting to verbose, generic responses rather than seeking clarification. We introduce InfoQuest, a multi-turn chat benchmark designed to evaluate how dialogue agents handle hidden context in open-ended user requests. The benchmark presents intentionally ambiguous scenarios that require models to engage in information-seeking dialogue through clarifying questions before providing appropriate responses. Our evaluation of both open and closed-source models reveals that while proprietary models generally perform better, all current assistants struggle with effectively gathering critical information, often requiring multiple turns to infer user intent and frequently defaulting to generic responses without proper clarification. We provide a systematic methodology for generating diverse scenarios and evaluating models' information-seeking capabilities, offering insights into the current limitations of language models in handling ambiguous requests through multi-turn interactions.
- Abstract(参考訳): 大きな言語モデルは明示的な指示に従うのに優れているが、曖昧さや不完全なユーザリクエストに悩まされることが多い。
対話エージェントがオープンエンドのユーザリクエストで隠れコンテキストをどのように扱うかを評価するために設計されたマルチターンチャットベンチマークであるInfoQuestを紹介する。
このベンチマークでは、適切な応答を提供する前に質問を明確にすることで、モデルが情報検索対話に参加する必要がある、意図的な曖昧なシナリオを提示している。
オープンソースモデルとクローズドソースモデルの両方を評価した結果、プロプライエタリモデルでは一般的にパフォーマンスが向上するが、現在のすべてのアシスタントは重要な情報を効果的に収集するのに苦労し、ユーザ意図を推測するために複数のターンを要し、適切な明確化なしにジェネリックレスポンスに頻繁にデフォルト化する必要があることが判明した。
多様なシナリオを生成し、モデルの情報検索能力を評価するための体系的な方法論を提供し、マルチターンインタラクションを通じてあいまいな要求を処理する際の言語モデルの現在の限界についての洞察を提供する。
関連論文リスト
- Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Promoting Open-domain Dialogue Generation through Learning Pattern
Information between Contexts and Responses [5.936682548344234]
本稿では,学習サンプルの文脈と応答の間の暗黙的なパターン情報を学ぶことにより,生成した応答の品質を向上させる。
また、文脈と応答間の暗黙的パターン情報をマイニングする応答認識機構を設計し、生成した応答をより多様でヒトの応答に近似するようにした。
論文 参考訳(メタデータ) (2023-09-06T08:11:39Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Multi-stage Clarification in Conversational AI: The case of
Question-Answering Dialogue Systems [0.27998963147546135]
対話型質問応答や会話型検索など,様々な情報検索タスクにおいて,明確化の解決が重要な役割を担っている。
そこで本稿では,質問応答対話システムのコンテキストにおいて,質問の明確化とクエリ選択を促すための多段階的明確化機構を提案する。
提案手法は,ユーザエクスペリエンス全体の改善と,競合するベースラインを2つのデータセットで比較する。
論文 参考訳(メタデータ) (2021-10-28T15:45:44Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。