論文の概要: Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- arxiv url: http://arxiv.org/abs/2506.11112v1
- Date: Sun, 08 Jun 2025 16:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.472579
- Title: Manifesto from Dagstuhl Perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- Title(参考訳): Dagstuhl perspectives Workshop 24352 -- Conversational Agents: A Framework for Evaluation (CAFE)
- Authors: Christine Bauer, Li Chen, Nicola Ferro, Norbert Fuhr, Avishek Anand, Timo Breuer, Guglielmo Faggioli, Ophir Frieder, Hideo Joho, Jussi Karlgren, Johannes Kiesel, Bart P. Knijnenburg, Aldo Lipani, Lien Michiels, Andrea Papenmeier, Maria Soledad Pera, Mark Sanderson, Scott Sanner, Benno Stein, Johanne R. Trippas, Karin Verspoor, Martijn C Willemsen,
- Abstract要約: 本研究では,conIACシステム評価のための会話エージェントフレームワーク(CAFE)を定義した。
CAFEは,1)システムの利害関係者の目標,2)評価において研究すべきユーザタスク,3)タスクを実行するユーザの側面,4)検討すべき評価基準,5)適用すべき評価方法論,および6)選択された量的基準の尺度からなる。
- 参考スコア(独自算出の注目度): 59.64777874324281
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the workshop, we deeply discussed what CONversational Information ACcess (CONIAC) is and its unique features, proposing a world model abstracting it, and defined the Conversational Agents Framework for Evaluation (CAFE) for the evaluation of CONIAC systems, consisting of six major components: 1) goals of the system's stakeholders, 2) user tasks to be studied in the evaluation, 3) aspects of the users carrying out the tasks, 4) evaluation criteria to be considered, 5) evaluation methodology to be applied, and 6) measures for the quantitative criteria chosen.
- Abstract(参考訳): ワークショップでは、conversational Information Access(conIAC)とは何か、そのユニークな特徴を深く議論し、それを抽象化する世界モデルを提案し、ConIACシステム評価のためのConversational Agents Framework for Evaluation(CAFE)を定義した。
1)システムの利害関係者の目標
2 評価において研究すべきユーザタスク
3)タスクを実行するユーザの側面。
4) 考慮すべき評価基準
5)適用すべき評価方法及び評価方法
6) 選択された量的基準に対する措置。
関連論文リスト
- AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts [0.6050976240234864]
本稿では,協調エージェント間で専門的な評価を分散するマルチエージェントシステムAGACCIを紹介する。
AGACCIは、ルーブリックとフィードバックの正確性、妥当性、一貫性、一貫性の点で、単一のGPTベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-07T15:50:46Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文 参考訳(メタデータ) (2025-03-24T20:17:20Z) - Large Language Models as Evaluators for Conversational Recommender Systems: Benchmarking System Performance from a User-Centric Perspective [38.940283784200005]
本研究では,LCMを用いたCRS自動評価フレームワークを提案する。
これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。
このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
論文 参考訳(メタデータ) (2025-01-16T12:06:56Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors [68.68418801681965]
本稿では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。
まず、現在のCRSモデルの長所と短所を概観する。
第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供する。
論文 参考訳(メタデータ) (2024-04-04T08:56:48Z) - Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations [2.6122764214161363]
このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。
また,対話システム評価の文脈における課題についても論じる。
対話システム評価の将来に向けた研究課題を策定する。
論文 参考訳(メタデータ) (2023-12-21T14:15:46Z) - The Value-Sensitive Conversational Agent Co-Design Framework [4.9186105778865645]
本稿では,価値に敏感なCAの協調設計(共同設計)を実現するために,VSCA(Value-Sensitive Conversational Agent)フレームワークを提案する。
このフレームワークは、利害関係者の価値観を導き、CAチームに対してCA実装をガイドするための技術的ユーティリティを持つ3つのアーティファクトの共同設計を促進する。
論文 参考訳(メタデータ) (2023-10-18T09:58:39Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。