論文の概要: SimLab: A Platform for Simulation-based Evaluation of Conversational Information Access Systems
- arxiv url: http://arxiv.org/abs/2507.04888v2
- Date: Fri, 24 Oct 2025 10:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.314671
- Title: SimLab: A Platform for Simulation-based Evaluation of Conversational Information Access Systems
- Title(参考訳): SimLab: 対話型情報アクセスシステムのシミュレーションに基づく評価プラットフォーム
- Authors: Nolwenn Bernard, Sharath Chandra Etagi Suresh, Krisztian Balog, ChengXiang Zhai,
- Abstract要約: 我々は,対話システムとユーザシミュレータを,制御および再現可能な設定でベンチマークする,最初のクラウドベースのプラットフォームであるSimLabを紹介した。
我々は,SimLabの初期バージョンの設計と実装について紹介し,その特徴を対話型映画レコメンデーションにおけるシミュレーションに基づく評価タスクを通じて示す。
- 参考スコア(独自算出の注目度): 37.907793236027594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in conversational information access (CIA) systems has been hindered by the difficulty of evaluating such systems with reproducible experiments. While user simulation offers a promising solution, the lack of infrastructure and tooling to support this evaluation paradigm remains a significant barrier. To address this gap, we introduce SimLab, the first cloud-based platform providing a centralized solution for the community to benchmark both conversational systems and user simulators in a controlled and reproducible setting. We articulate the requirements for such a platform and propose a general infrastructure to meet them. We then present the design and implementation of an initial version of SimLab and showcase its features through an initial simulation-based evaluation task in conversational movie recommendation. Furthermore, we discuss the platform's sustainability and future opportunities for development, inviting the community to drive further progress in the fields of CIA and user simulation.
- Abstract(参考訳): 会話情報アクセス(CIA)システムの進歩は、再現可能な実験でそのようなシステムを評価することの難しさによって妨げられている。
ユーザシミュレーションは有望なソリューションを提供するが、この評価パラダイムをサポートするインフラストラクチャやツーリングの欠如は、依然として大きな障壁である。
このギャップに対処するため、私たちはSimLabを紹介します。SimLabは、コミュニティにとって、制御された再現可能な環境で、会話システムとユーザーシミュレータの両方をベンチマークする集中型ソリューションを提供する最初のクラウドベースのプラットフォームです。
このようなプラットフォームの要件を明確にし、それらを満たすための一般的なインフラストラクチャを提案します。
次に,SimLabの初期バージョンの設計と実装について紹介し,その特徴を対話型映画レコメンデーションにおけるシミュレーションに基づく評価タスクを通じて示す。
さらに、我々は、このプラットフォームの持続可能性と今後の開発機会について議論し、CIAとユーザーシミュレーションの分野におけるさらなる進歩を促すようコミュニティに呼びかける。
関連論文リスト
- Beyond Static Testbeds: An Interaction-Centric Agent Simulation Platform for Dynamic Recommender Systems [40.09105175322562]
RecInterは、リコメンダシステムのための新しいエージェントベースのシミュレーションプラットフォームである。
RecInterでは、ユーザーアクション(例えば、レビュー、購入など)をリアルタイムで動的に更新する。
Merchant Agentsは、より現実的で進化したエコシステムを育むことができる。
論文 参考訳(メタデータ) (2025-05-22T09:14:23Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.86336063222539]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations [18.256529559741075]
クレム・トッドは、一貫した条件下で対話システムを体系的に評価するためのフレームワークである。
プラグインとプレイの統合をサポートし、均一なデータセット、評価メトリクス、計算制約を保証する。
我々の結果は、アーキテクチャ、スケール、および迅速な戦略が対話のパフォーマンスにどのように影響するかについての実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-08T17:36:36Z) - Design of JiuTian Intelligent Network Simulation Platform [16.343389061714973]
本稿では,オープンイノベーションプラットフォーム向けに無線通信シミュレーションデータサービスを提供するJuTian Intelligent Network Simulation Platformを紹介する。
プラットフォームには一連のスケーラブルなシミュレータ機能が含まれており、シミュレーション環境とデータに基づいたモデルトレーニングと推論に強化学習アルゴリズムを使用できるオープンなサービスを提供している。
論文 参考訳(メタデータ) (2023-09-28T07:02:39Z) - User Simulation for Evaluating Information Access Systems [38.48048183731099]
インタラクティブな知能システムの有効性を評価することは 複雑な科学的課題です
本書は,評価に特化して設計されたユーザシミュレーション技術について,詳細な理解を提供する。
ユーザシミュレータを設計するための一般的なフレームワークと、検索エンジン、レコメンダシステム、会話アシスタントとのユーザインタラクションをシミュレートする特定のモデルとアルゴリズムの両方をカバーする。
論文 参考訳(メタデータ) (2023-06-14T14:54:06Z) - Information Extraction and Human-Robot Dialogue towards Real-life Tasks:
A Baseline Study with the MobileCS Dataset [52.22314870976088]
SereTODチャレンジは、実際のユーザとChina Mobileのカスタマーサービススタッフの実際のダイアログ書き起こしで構成されるMobileCSデータセットを編成してリリースする。
MobileCSデータセットに基づいて、SereTODチャレンジには2つのタスクがあり、対話システム自体の構築を評価するだけでなく、ダイアログの書き起こしからの情報も抽出する。
本稿では主に,MobileCSデータセットを用いた2つのタスクのベースラインスタディを示す。
論文 参考訳(メタデータ) (2022-09-27T15:30:43Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Recommendation System Simulations: A Discussion of Two Key Challenges [0.0]
シミュレーションは、レコメンデーションシステムが個人や社会に与える影響を理解するための道を提供する。
本稿では、まず、推奨項目を選択したり、関わったりするためのモデルを定義し、次に、プラットフォームから直接推奨されない項目に遭遇するためのメカニズムを定義します。
論文 参考訳(メタデータ) (2021-08-25T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。