Fugu-MT 論文翻訳(概要): DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents

論文の概要: DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents

arxiv url: http://arxiv.org/abs/2406.13144v3
Date: Thu, 19 Dec 2024 02:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.706684
Title: DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
Title（参考訳）: DialSim:会話エージェントの長期多人数対話理解のためのリアルタイムシミュレータ
Authors: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi,
Abstract要約: リアルタイム対話シミュレータであるDialSimを紹介する。本シミュレータでは、人気番組のキャラクターの役割をエージェントに割り当てる。 DialSimの主な特徴は、適切な時間内に応答するエージェントの能力を評価することである。
参考スコア（独自算出の注目度）: 13.915753261117901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include assessing the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and evaluating performance under randomized questioning with LongDialQA, a novel, high-quality question-answering dataset. Our experiments using DialSim reveal the strengths and weaknesses of the latest conversational agents, offering valuable insights for future advancements in conversational AI. DialSim is available at https://dialsim.github.io/.
Abstract（参考訳）: 近年のLarge Language Models (LLM) の進歩は会話エージェントの能力を大幅に向上させ、様々な分野(例えば教育)に応用されている。その進展にもかかわらず、エージェントの評価は、リアルタイム対話、多人数対話、拡張されたコンテキスト依存など、現実世界の会話の複雑さをしばしば見落としている。このギャップを埋めるために,リアルタイム対話シミュレータDialSimを導入する。このシミュレータでは、エージェントが人気番組のキャラクターの役割を割り当てられ、過去の対話情報を用いて自発的な質問に応答し、未知の情報と未知の情報とを区別する必要がある。 DialSimの主な特徴は、エージェントの適切な時間制限内で応答する能力の評価、長期にわたる多人数対話の処理、新しい高品質の質問応答データセットであるLongDialQAによるランダムな質問によるパフォーマンス評価である。 DialSimを使った我々の実験は、最新の会話エージェントの長所と短所を明らかにし、会話AIの今後の進歩に対する貴重な洞察を提供する。 DialSimはhttps://dialsim.github.io/.comで入手できる。

関連論文リスト

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文参考訳（メタデータ） (2024-04-23T06:23:34Z)
Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文参考訳（メタデータ） (2024-02-27T18:42:31Z)
MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。 1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文参考訳（メタデータ） (2024-02-22T18:21:59Z)
Mind the Gap Between Conversations for Improved Long-Term Dialogue Generation [21.109006148673846]
GapChatは、セッション間の時間が異なるマルチセッション対話データセットである。データセットはリアルタイムに構築されているが、話者の生活における出来事の進行をシミュレートして、長い時間間隔で発生する現実的な対話を生成する。時間認識モデルは、選択したトピックと会話から得られる情報との関係を判断する指標において、より良いパフォーマンスを示す。
論文参考訳（メタデータ） (2023-10-24T00:12:38Z)
PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文参考訳（メタデータ） (2023-09-19T08:27:09Z)
Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems [29.394466123216258]
本研究は,対話エージェントの主要な特徴,対応するオープンドメインデータセット,およびこれらのデータセットをベンチマークする手法について概説する。我々は,既存のデータセットの会話から構築された統一dIalogue dataseTであるUNITを提案する。
論文参考訳（メタデータ） (2023-07-14T10:05:47Z)
PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。 PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。 PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文参考訳（メタデータ） (2023-04-02T18:23:13Z)
PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue [21.266410719325208]
ペルソナとナレッジデュアルコンテキスト識別(ペルソナとナレッジコンテクストの同定)は、与えられた対話において、ペルソナとナレッジを共同で識別するタスクである。我々は,対話のすべての文脈を同時に活用する新しい接地検索手法を開発した。
論文参考訳（メタデータ） (2023-02-13T20:27:26Z)
A Benchmark for Understanding and Generating Dialogue between Characters in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文参考訳（メタデータ） (2022-09-18T10:19:04Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文参考訳（メタデータ） (2022-04-28T00:52:16Z)
A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots [0.0]
人工知能をデプロイして、人間と会話できる自動対話エージェントを構築することを目指している。本稿では,長年にわたって対話システムを構築するために開発された手法について概説する。
論文参考訳（メタデータ） (2021-11-02T08:07:55Z)
WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。 2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文参考訳（メタデータ） (2021-08-01T08:00:45Z)
BERT-CoQAC: BERT-based Conversational Question Answering in Context [10.811729691130349]
履歴変換をシステム内に組み込むためのBERTという,パブリックに利用可能なプリトレーニング言語モデルに基づくフレームワークを紹介する。実験の結果,我々のフレームワークはQuACリーダボードの最先端モデルと同等の性能を示した。
論文参考訳（メタデータ） (2021-04-23T03:05:17Z)
Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2021-04-15T16:24:43Z)
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。 2人のエージェントが互いに相互作用し、同時に一緒に学習されます。その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T04:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。