論文の概要: Beyond Single-User Dialogue: Assessing Multi-User Dialogue State Tracking Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10504v1
- Date: Thu, 12 Jun 2025 09:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.665322
- Title: Beyond Single-User Dialogue: Assessing Multi-User Dialogue State Tracking Capabilities of Large Language Models
- Title(参考訳): シングルユーザ対話を超えて:大規模言語モデルの多ユーザ対話状態追跡機能を評価する
- Authors: Sangmin Song, Juhwan Choi, JungMin Yun, YoungBin Kim,
- Abstract要約: 大言語モデル(LLM)は、ゼロショット対話状態追跡(DST)において顕著な性能を示した。
本研究では,データセット構築コストを最小化しつつ,マルチユーザDSTにおけるLCMのロバスト性を評価する。
- 参考スコア(独自算出の注目度): 7.5972186611957815
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance in zero-shot dialogue state tracking (DST), reducing the need for task-specific training. However, conventional DST benchmarks primarily focus on structured user-agent conversations, failing to capture the complexities of real-world multi-user interactions. In this study, we assess the robustness of LLMs in multi-user DST while minimizing dataset construction costs. Inspired by recent advances in LLM-based data annotation, we extend an existing DST dataset by generating utterances of a second user based on speech act theory. Our methodology systematically incorporates a second user's utterances into conversations, enabling a controlled evaluation of LLMs in multi-user settings. Experimental results reveal a significant performance drop compared to single-user DST, highlighting the limitations of current LLMs in extracting and tracking dialogue states amidst multiple speakers. Our findings emphasize the need for future research to enhance LLMs for multi-user DST scenarios, paving the way for more realistic and robust DST models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ゼロショット対話状態追跡(DST)において顕著な性能を示し、タスク固有のトレーニングの必要性を減らす。
しかし、従来のDSTベンチマークは主に構造化されたユーザエージェントの会話に焦点を当てており、実世界のマルチユーザーインタラクションの複雑さを捉えていない。
本研究では,データセット構築コストを最小化しつつ,マルチユーザDSTにおけるLCMのロバスト性を評価する。
LLMに基づくデータアノテーションの最近の進歩に触発されて、音声アクト理論に基づいて第2のユーザの発話を生成することによって、既存のDSTデータセットを拡張した。
提案手法は,会話に第2のユーザの発話を体系的に組み込んで,マルチユーザ設定におけるLLMの制御評価を可能にする。
実験結果から,複数話者間の対話状態の抽出と追跡において,現在のLDMの限界が強調された。
本研究は,マルチユーザ DST シナリオにおける LLM の拡張に向けた今後の研究の必要性を強調し,より現実的で堅牢な DST モデルへの道を開いた。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Synergizing In-context Learning with Hints for End-to-end Task-oriented Dialog Systems [25.14460456391397]
LLM(Large Language Model)ベースのTODシステムは、コンテキスト内例を通してタスクを学習する能力のため、限られたデータでも優れている。
低データ設定におけるアライメントを改善するために,タスク固有のヒントでLLMを相乗化するSyncTODを提案する。
ChatGPTでは、SyncTODは低データ設定でLLMベースのベースラインやSoTAモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-24T14:13:54Z) - Enhancing Dialogue State Tracking Models through LLM-backed User-Agents Simulation [12.93942316816741]
GPT-4はユーザとエージェントのインタラクションをシミュレートするために使用され、DSTラベルと数千の注釈付き対話を生成する。
生成されたデータとDST予測のための実データとに基づいて、LLaMA2の2段階微調整を行う。
我々のアプローチは、現実世界のシナリオにおける動的な要求に適応し、新しいドメインでの対話を迅速に生成することもできます。
論文 参考訳(メタデータ) (2024-05-17T07:00:05Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Prompt Learning for Few-Shot Dialogue State Tracking [75.50701890035154]
本稿では,限られたラベル付きデータを用いて,対話状態追跡(DST)モデルを効率的に学習する方法に焦点を当てる。
本稿では,2つの主要なコンポーネントである値ベースプロンプトと逆プロンプト機構からなる,数ショットDSTのためのプロンプト学習フレームワークを設計する。
実験により、我々のモデルは未確認のスロットを生成し、既存の最先端の数ショット法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。