論文の概要: DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
- arxiv url: http://arxiv.org/abs/2406.13144v6
- Date: Fri, 26 Sep 2025 00:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.155873
- Title: DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
- Title(参考訳): DialSim:会話エージェントの長期多人数対話理解のための対話シミュレータ
- Authors: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yeonsu Kwon, Yohan Jo, Edward Choi,
- Abstract要約: 対話シミュレーションに基づく評価フレームワークであるDialSimを紹介する。
ダイアルシム(DialSim)では、エージェントが台詞付き会話におけるキャラクターの役割を仮定し、対話履歴のみを用いて自発的な質問に答える能力を評価する。
このフレームワークをサポートするために,LongDialQAを導入した。
DialSimを用いたLLMを用いた会話エージェントの評価では,大局的なコンテキストウィンドウやRAG機能を持つモデルでさえ,長期にわたる多人数インタラクションに対する正確な理解の維持に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 26.33695508857177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly enhanced conversational agents, making them applicable to various fields (e.g., education, entertainment). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as multi-party dialogues and extended contextual dependencies. To bridge this gap, we introduce DialSim, a dialogue simulation-based evaluation framework. In DialSim, an agent assumes the role of a character in a scripted conversation and is evaluated on their ability to answer spontaneous questions using only the dialogue history, while recognizing when they lack sufficient information. To support this framework, we introduce LongDialQA, a new QA dataset constructed from long-running TV shows, comprising over 1,300 dialogue sessions, each paired with more than 1,000 carefully curated questions, totaling over 352,000 tokens. To minimize reliance on prior knowledge, all character names are anonymized or swapped. Our evaluation of state-of-the-art LLM-based conversational agents using DialSim reveals that even models with large context windows or RAG capabilities struggle to maintain accurate comprehension over long-term, multi-party interactions-underscoring the need for more realistic and challenging benchmarks in conversational AI.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩は会話エージェントを著しく強化し、様々な分野(例えば、教育、エンターテイメント)に適用できるようになっている。
その進展にもかかわらず、エージェントの評価は、多人数対話や拡張されたコンテキスト依存など、現実世界の会話の複雑さをしばしば見落としている。
このギャップを埋めるために,対話シミュレーションに基づく評価フレームワークであるDialSimを紹介する。
ダイアルシムでは、エージェントがスクリプト化された会話におけるキャラクターの役割を仮定し、十分な情報がないことを認識しながら、対話履歴のみを用いて自発的な質問に答える能力を評価する。
このフレームワークをサポートするために,LongDialQAを導入した。このQAデータセットは,1,300以上の対話セッションで構成され,それぞれに1,000以上の注意深い質問をペアリングし,合計352,000以上のトークンを収集する。
事前の知識への依存を最小限に抑えるため、すべての文字名は匿名化またはスワップされる。
DialSimを用いた、最先端のLLMベースの会話エージェントの評価では、大きなコンテキストウィンドウやRAG機能を持つモデルでさえ、長期的な多人数インタラクションに対する正確な理解の維持に苦慮していることが明らかとなり、会話AIにおけるより現実的で挑戦的なベンチマークの必要性が明らかになった。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Mind the Gap Between Conversations for Improved Long-Term Dialogue
Generation [21.109006148673846]
GapChatは、セッション間の時間が異なるマルチセッション対話データセットである。
データセットはリアルタイムに構築されているが、話者の生活における出来事の進行をシミュレートして、長い時間間隔で発生する現実的な対話を生成する。
時間認識モデルは、選択したトピックと会話から得られる情報との関係を判断する指標において、より良いパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-10-24T00:12:38Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue
Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。
PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。
PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文 参考訳(メタデータ) (2023-04-02T18:23:13Z) - PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue [21.266410719325208]
ペルソナとナレッジ デュアルコンテキスト識別(ペルソナとナレッジ コンテクストの同定)は、与えられた対話において、ペルソナとナレッジを共同で識別するタスクである。
我々は,対話のすべての文脈を同時に活用する新しい接地検索手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T20:27:26Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots [0.0]
人工知能をデプロイして、人間と会話できる自動対話エージェントを構築することを目指している。
本稿では,長年にわたって対話システムを構築するために開発された手法について概説する。
論文 参考訳(メタデータ) (2021-11-02T08:07:55Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - BERT-CoQAC: BERT-based Conversational Question Answering in Context [10.811729691130349]
履歴変換をシステム内に組み込むためのBERTという,パブリックに利用可能なプリトレーニング言語モデルに基づくフレームワークを紹介する。
実験の結果,我々のフレームワークはQuACリーダボードの最先端モデルと同等の性能を示した。
論文 参考訳(メタデータ) (2021-04-23T03:05:17Z) - Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。
我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2021-04-15T16:24:43Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。