論文の概要: Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- arxiv url: http://arxiv.org/abs/2506.11112v1
- Date: Sun, 08 Jun 2025 16:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.472579
- Title: Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- Title(参考訳): Dagstuhl perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- Authors: Christine Bauer, Li Chen, Nicola Ferro, Norbert Fuhr, Avishek Anand, Timo Breuer, Guglielmo Faggioli, Ophir Frieder, Hideo Joho, Jussi Karlgren, Johannes Kiesel, Bart P. Knijnenburg, Aldo Lipani, Lien Michiels, Andrea Papenmeier, Maria Soledad Pera, Mark Sanderson, Scott Sanner, Benno Stein, Johanne R. Trippas, Karin Verspoor, Martijn C Willemsen,
- Abstract要約: 本研究では,conIACシステム評価のための会話エージェントフレームワーク(CAFE)を定義した。
CAFEは,1)システムの利害関係者の目標,2)評価において研究すべきユーザタスク,3)タスクを実行するユーザの側面,4)検討すべき評価基準,5)適用すべき評価方法論,および6)選択された量的基準の尺度からなる。
- 参考スコア(独自算出の注目度): 59.64777874324281
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the workshop, we deeply discussed what CONversational Information ACcess (CONIAC) is and its unique features, proposing a world model abstracting it, and defined the Conversational Agents Framework for Evaluation (CAFE) for the evaluation of CONIAC systems, consisting of six major components: 1) goals of the system's stakeholders, 2) user tasks to be studied in the evaluation, 3) aspects of the users carrying out the tasks, 4) evaluation criteria to be considered, 5) evaluation methodology to be applied, and 6) measures for the quantitative criteria chosen.
- Abstract(参考訳): ワークショップでは、conversational Information Access(conIAC)とは何か、そのユニークな特徴を深く議論し、それを抽象化する世界モデルを提案し、ConIACシステム評価のためのConversational Agents Framework for Evaluation(CAFE)を定義した。
1)システムの利害関係者の目標
2 評価において研究すべきユーザタスク
3)タスクを実行するユーザの側面。
4) 考慮すべき評価基準
5)適用すべき評価方法及び評価方法
6) 選択された量的基準に対する措置。
関連論文リスト
- SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文 参考訳(メタデータ) (2025-03-24T20:17:20Z) - Large Language Models as Evaluators for Conversational Recommender Systems: Benchmarking System Performance from a User-Centric Perspective [38.940283784200005]
本研究では,LCMを用いたCRS自動評価フレームワークを提案する。
これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。
このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
論文 参考訳(メタデータ) (2025-01-16T12:06:56Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors [68.68418801681965]
本稿では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。
まず、現在のCRSモデルの長所と短所を概観する。
第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供する。
論文 参考訳(メタデータ) (2024-04-04T08:56:48Z) - Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations [2.6122764214161363]
このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。
また,対話システム評価の文脈における課題についても論じる。
対話システム評価の将来に向けた研究課題を策定する。
論文 参考訳(メタデータ) (2023-12-21T14:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。