論文の概要: SDialog: A Python Toolkit for End-to-End Agent Building, User Simulation, Dialog Generation, and Evaluation
- arxiv url: http://arxiv.org/abs/2512.09142v2
- Date: Fri, 12 Dec 2025 00:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.094458
- Title: SDialog: A Python Toolkit for End-to-End Agent Building, User Simulation, Dialog Generation, and Evaluation
- Title(参考訳): SDialog: エンドツーエンドエージェント構築、ユーザシミュレーション、ダイアログ生成、評価のためのPythonツールキット
- Authors: Sergio Burdisso, Séverin Baroudi, Yanis Labrak, David Grunert, Pawel Cyrta, Yiyang Chen, Srikanth Madikeri, Esaú Villatoro-Tello, Thomas Schaaf, Ricard Marxer, Petr Motlicek,
- Abstract要約: SDialogはMITライセンスのオープンソースのPythonツールキットで、会話エージェントの構築と分析を行う。
ダイアログ生成、評価、機械的解釈可能性を単一のエンドツーエンドフレームワークに統合する。
ダイアログ中心アーキテクチャにおける生成、評価、解釈可能性の結合により、SDialogは研究者がより系統的に会話システムを構築し、ベンチマークし、理解することができる。
- 参考スコア(独自算出の注目度): 19.007557608856565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SDialog, an MIT-licensed open-source Python toolkit that unifies dialog generation, evaluation and mechanistic interpretability into a single end-to-end framework for building and analyzing LLM-based conversational agents. Built around a standardized \texttt{Dialog} representation, SDialog provides: (1) persona-driven multi-agent simulation with composable orchestration for controlled, synthetic dialog generation, (2) comprehensive evaluation combining linguistic metrics, LLM-as-a-judge and functional correctness validators, (3) mechanistic interpretability tools for activation inspection and steering via feature ablation and induction, and (4) audio generation with full acoustic simulation including 3D room modeling and microphone effects. The toolkit integrates with all major LLM backends, enabling mixed-backend experiments under a unified API. By coupling generation, evaluation, and interpretability in a dialog-centric architecture, SDialog enables researchers to build, benchmark and understand conversational systems more systematically.
- Abstract(参考訳): SDialogはMITライセンスのオープンソースPythonツールキットで,対話生成,評価,機械的解釈性を単一のエンドツーエンドフレームワークに統合し,LLMベースの対話エージェントの構築と解析を行う。
SDialogは,(1)制御,合成ダイアログ生成のための構成可能なオーケストレーションを備えたペルソナ駆動マルチエージェントシミュレーション,(2)言語メトリクス,LSM-as-a-judgeと機能的正当性検証器を組み合わせた包括的評価,(3)機能的アブレーションと誘導によるアクティベーションインスペクションとステアリングのための機械的解釈可能性ツール,(4)3次元ルームモデリングとマイクロフォン効果を含む完全な音響シミュレーションによる音声生成を提供する。
このツールキットはすべての主要なLLMバックエンドと統合されており、統一されたAPIの下で混合バックエンド実験を可能にする。
ダイアログ中心アーキテクチャにおける生成、評価、解釈可能性の結合により、SDialogは研究者がより系統的に会話システムを構築し、ベンチマークし、理解することができる。
関連論文リスト
- A Multimodal Conversational Agent for Tabular Data Analysis [0.2211620227346065]
大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
直感的データ探索のためのマルチモーダルLLM駆動型対話エージェントTalk2Dataを提案する。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
論文 参考訳(メタデータ) (2025-11-23T11:21:04Z) - ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation [0.0]
ChatCheckerは複雑な対話システムの自動評価とテストのためのフレームワークである。
大きな言語モデル(LLM)を使用して、多様なユーザインタラクションをシミュレートし、対話のブレークダウンを特定し、品質を評価する。
論文 参考訳(メタデータ) (2025-07-22T17:40:34Z) - SDialog: A Python Toolkit for Synthetic Dialogue Generation and Analysis [0.7919810878571298]
SDialogは、合成対話生成と解析の課題に対処するために設計された、モジュール化された現実的なPythonツールキットである。
命令調整された大規模言語モデル(LLM)を活用することで、SDialogはペルソナ、オーケストレーション、シナリオ管理の抽象化を提供する。
論文 参考訳(メタデータ) (2025-06-12T12:07:51Z) - clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations [18.256529559741075]
クレム・トッドは、一貫した条件下で対話システムを体系的に評価するためのフレームワークである。
プラグインとプレイの統合をサポートし、均一なデータセット、評価メトリクス、計算制約を保証する。
我々の結果は、アーキテクチャ、スケール、および迅速な戦略が対話のパフォーマンスにどのように影響するかについての実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-08T17:36:36Z) - DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling [73.08187964426823]
大規模言語モデル (LLM) によって実現された対話システムは、人間と機械の相互作用において中心的なモードの1つとなっている。
本稿では,新しい研究課題--$textbfD$ialogue $textbfE$lement $textbfMO$delingを紹介する。
本稿では,包括的対話モデリングと評価のために設計された新しいベンチマークである$textbfDEMO$を提案する。
論文 参考訳(メタデータ) (2024-12-06T10:01:38Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog
Understanding and Generation [123.37377363355363]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。
幅広いダウンストリームダイアログタスクを効果的に微調整できる。
その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-09-14T14:17:57Z) - ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and
Diagnosing Dialogue Systems [107.35174238206525]
ConvLab-2は、研究者が最先端のモデルでタスク指向の対話システムを構築することができるオープンソースのツールキットである。
分析ツールは、豊富な統計情報を示し、シミュレーションされた対話から一般的な誤りを要約する。
このインタラクティブツールは、システムと対話し、各システムコンポーネントの出力を変更することで、統合された対話システムの診断を可能にする。
論文 参考訳(メタデータ) (2020-02-12T04:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。