論文の概要: DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
- arxiv url: http://arxiv.org/abs/2406.13144v2
- Date: Thu, 10 Oct 2024 07:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:36.018784
- Title: DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
- Title(参考訳): DialSim:会話エージェントの長期多人数対話理解のためのリアルタイムシミュレータ
- Authors: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi,
- Abstract要約: リアルタイム対話シミュレータであるDialSimを紹介する。
本シミュレータでは、人気番組のキャラクターの役割をエージェントに割り当てる。
DialSimの主な特徴は、適切な時間内に応答するエージェントの能力を評価することである。
- 参考スコア(独自算出の注目度): 13.915753261117901
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and testing the agent's performance under randomized questioning with a diverse and high-quality question-answer dataset. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://dialsim.github.io/.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は会話エージェントの能力を大幅に向上させ、様々な分野(例えば教育)に応用されている。
その進展にもかかわらず、エージェントの評価は、リアルタイム対話、多人数対話、拡張されたコンテキスト依存など、現実世界の会話の複雑さをしばしば見落としている。
このギャップを埋めるために,リアルタイム対話シミュレータDialSimを導入する。
このシミュレータでは、エージェントが人気番組のキャラクターの役割を割り当てられ、過去の対話情報を用いて自発的な質問に応答し、未知の情報と未知の情報とを区別する必要がある。
DialSimの主な特徴は、エージェントの適切な時間制限内で応答する能力の評価、長期にわたる多人数対話の処理、多彩で高品質な質問応答データセットによるランダムな質問によるエージェントのパフォーマンステストである。
我々は,このシミュレータを用いて,最新の会話エージェントを評価し,その制限を解析した。
我々の実験は、これらのエージェントの強みと弱みの両方を強調し、対話型AIの分野における将来の改善に対する貴重な洞察を提供する。
DialSimはhttps://dialsim.github.io/.comで入手できる。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Mind the Gap Between Conversations for Improved Long-Term Dialogue
Generation [21.109006148673846]
GapChatは、セッション間の時間が異なるマルチセッション対話データセットである。
データセットはリアルタイムに構築されているが、話者の生活における出来事の進行をシミュレートして、長い時間間隔で発生する現実的な対話を生成する。
時間認識モデルは、選択したトピックと会話から得られる情報との関係を判断する指標において、より良いパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-10-24T00:12:38Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue [21.266410719325208]
ペルソナとナレッジ デュアルコンテキスト識別(ペルソナとナレッジ コンテクストの同定)は、与えられた対話において、ペルソナとナレッジを共同で識別するタスクである。
我々は,対話のすべての文脈を同時に活用する新しい接地検索手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T20:27:26Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。
我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2021-04-15T16:24:43Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。