論文の概要: clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations
- arxiv url: http://arxiv.org/abs/2505.05445v1
- Date: Thu, 08 May 2025 17:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.984681
- Title: clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations
- Title(参考訳): clem:todd: LLMに基づくタスク指向対話システムの実現のシステムベンチマークのためのフレームワーク
- Authors: Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen,
- Abstract要約: クレム・トッドは、一貫した条件下で対話システムを体系的に評価するためのフレームワークである。
プラグインとプレイの統合をサポートし、均一なデータセット、評価メトリクス、計算制約を保証する。
我々の結果は、アーキテクチャ、スケール、および迅速な戦略が対話のパフォーマンスにどのように影響するかについての実用的な洞察を提供する。
- 参考スコア(独自算出の注目度): 18.256529559741075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of instruction-tuned large language models (LLMs) has advanced the field of dialogue systems, enabling both realistic user simulations and robust multi-turn conversational agents. However, existing research often evaluates these components in isolation-either focusing on a single user simulator or a specific system design-limiting the generalisability of insights across architectures and configurations. In this work, we propose clem todd (chat-optimized LLMs for task-oriented dialogue systems development), a flexible framework for systematically evaluating dialogue systems under consistent conditions. clem todd enables detailed benchmarking across combinations of user simulators and dialogue systems, whether existing models from literature or newly developed ones. It supports plug-and-play integration and ensures uniform datasets, evaluation metrics, and computational constraints. We showcase clem todd's flexibility by re-evaluating existing task-oriented dialogue systems within this unified setup and integrating three newly proposed dialogue systems into the same evaluation pipeline. Our results provide actionable insights into how architecture, scale, and prompting strategies affect dialogue performance, offering practical guidance for building efficient and effective conversational AI systems.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)の出現は対話システムの分野を進歩させ、現実的なユーザシミュレーションと堅牢なマルチターン対話エージェントの両方を可能にした。
しかし、既存の研究では、これらのコンポーネントを一つのユーザーシミュレーターや特定のシステム設計に焦点をあてて、アーキテクチャや構成をまたいだ洞察の一般性を制限するか、分離して評価することが多い。
本研究では,一貫した条件下での対話システムを体系的に評価するためのフレキシブルなフレームワークであるClem todd(タスク指向対話システム開発のためのチャット最適化LLM)を提案する。
clem toddはユーザシミュレータと対話システムの組み合わせをまたいだ詳細なベンチマークを可能にする。
プラグインとプレイの統合をサポートし、均一なデータセット、評価メトリクス、計算制約を保証する。
我々は,既存のタスク指向対話システムを再評価し,新たに提案した3つの対話システムを同じ評価パイプラインに統合することで,クレムトッドの柔軟性を示す。
我々の結果は、アーキテクチャ、スケール、迅速な戦略が対話のパフォーマンスにどのように影響するかについての実用的な洞察を与え、効率的で効果的な対話型AIシステムを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Many Hands Make Light Work: Task-Oriented Dialogue System with Module-Based Mixture-of-Experts [9.129081545049992]
タスク指向対話システムは事前学習言語モデル(PLM)の恩恵を受けている
ソフト混合型タスク指向対話システム(SMETOD)を提案する。
SMETODは、Mixture-of-Experts(MoEs)のアンサンブルを利用してサブプロブレムを最適化し、タスク指向対話のための特殊な出力を生成する。
我々は,意図予測,対話状態追跡,対話応答生成という3つのベンチマーク機能に対して,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-16T01:02:09Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue [70.64560638766018]
textbfUnified textbfEvaluation のためのtextbfVisually-grounded textbfDialogue ベンチマークである textbfVDialogUE を提案する。
5つのコアマルチモーダル対話タスクを定義し、6つのデータセットをカバーする。
また,textbfVISIT(textbfVISually-grounded dtextbfIalog textbfTransformer)という,単純で効率的なベースラインモデルも提示し,その進歩を促進させる。
論文 参考訳(メタデータ) (2023-09-14T02:09:20Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - Alexa Conversations: An Extensible Data-driven Approach for Building
Task-oriented Dialogue Systems [21.98135285833616]
従来の目標指向対話システムは、自然言語理解、対話状態追跡、政策学習、応答生成など、さまざまなコンポーネントに依存している。
スケーラブルかつデータ効率の高い,目標指向の対話システム構築のための新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-19T07:09:27Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。