論文の概要: InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context
- arxiv url: http://arxiv.org/abs/2502.12257v2
- Date: Fri, 25 Apr 2025 23:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.171359
- Title: InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context
- Title(参考訳): InfoQuest: 隠れコンテキストによるオープンエンディング会話のためのマルチターン対話エージェントの評価
- Authors: Bryan L. M. de Oliveira, Luana G. B. Martins, Bruno Brandão, Luckeciano C. Melo,
- Abstract要約: 大きな言語モデルは明示的な指示に従う点で優れているが、曖昧さや不完全なユーザリクエストに悩まされることが多い。
オープンエンドのユーザリクエストにおいて、対話エージェントが隠れコンテキストをどのように扱うかを評価するために設計されたベンチマークであるInfoQuestを紹介する。
- 参考スコア(独自算出の注目度): 4.262907114077643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at following explicit instructions, but they often struggle with ambiguous or incomplete user requests, defaulting to verbose, generic responses instead of seeking clarification. We introduce InfoQuest, a multi-turn chat benchmark designed to evaluate how dialogue agents handle hidden context in open-ended user requests. This benchmark presents intentionally ambiguous scenarios that require models to engage in information-seeking dialogue by asking clarifying questions before providing appropriate responses. Our evaluation of both open and closed models reveals that, while proprietary models generally perform better, all current assistants struggle to gather critical information effectively. They often require multiple turns to infer user intent and frequently default to generic responses without proper clarification. We provide a systematic methodology for generating diverse scenarios and evaluating models' information-seeking capabilities, which can be leveraged to automatically generate data for self-improvement. We also offer insights into the current limitations of language models in handling ambiguous requests through multi-turn interactions.
- Abstract(参考訳): 大きな言語モデルは明示的な指示に従う点で優れていますが、明確化を求めるのではなく、冗長で汎用的な応答をデフォルトとして、曖昧なユーザリクエストや不完全なユーザリクエストに悩まされることが少なくありません。
対話エージェントがオープンエンドのユーザリクエストで隠れコンテキストをどのように扱うかを評価するために設計されたマルチターンチャットベンチマークであるInfoQuestを紹介する。
このベンチマークは、適切な応答を提供する前に、明確な質問をすることで、モデルが情報検索対話に参加することを要求する意図的不明瞭なシナリオを示す。
オープンモデルとクローズドモデルの両方を評価すると、プロプライエタリモデルの方が一般的に優れているが、現在のアシスタントはすべて、重要な情報を効果的に収集するのに苦労していることがわかる。
ユーザ意図を推測するためには複数のターンが必要になることが多く、適切な明確化なしにジェネリックレスポンスをデフォルトにすることが多い。
本稿では,多種多様なシナリオを生成し,自己改善のためのデータの自動生成に活用可能な,モデルの情報検索能力を評価するための体系的方法論を提案する。
マルチターンインタラクションによるあいまいなリクエスト処理における言語モデルの現在の制限に関する洞察も提供します。
関連論文リスト
- CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Promoting Open-domain Dialogue Generation through Learning Pattern
Information between Contexts and Responses [5.936682548344234]
本稿では,学習サンプルの文脈と応答の間の暗黙的なパターン情報を学ぶことにより,生成した応答の品質を向上させる。
また、文脈と応答間の暗黙的パターン情報をマイニングする応答認識機構を設計し、生成した応答をより多様でヒトの応答に近似するようにした。
論文 参考訳(メタデータ) (2023-09-06T08:11:39Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Multi-stage Clarification in Conversational AI: The case of
Question-Answering Dialogue Systems [0.27998963147546135]
対話型質問応答や会話型検索など,様々な情報検索タスクにおいて,明確化の解決が重要な役割を担っている。
そこで本稿では,質問応答対話システムのコンテキストにおいて,質問の明確化とクエリ選択を促すための多段階的明確化機構を提案する。
提案手法は,ユーザエクスペリエンス全体の改善と,競合するベースラインを2つのデータセットで比較する。
論文 参考訳(メタデータ) (2021-10-28T15:45:44Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。