Fugu-MT 論文翻訳(概要): A Methodology for Identifying Evaluation Items for Practical Dialogue Systems Based on Business-Dialogue System Alignment Models

論文の概要: A Methodology for Identifying Evaluation Items for Practical Dialogue Systems Based on Business-Dialogue System Alignment Models

arxiv url: http://arxiv.org/abs/2602.15835v1
Date: Sat, 10 Jan 2026 05:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.632314
Title: A Methodology for Identifying Evaluation Items for Practical Dialogue Systems Based on Business-Dialogue System Alignment Models
Title（参考訳）: ビジネスダイアログシステムアライメントモデルに基づく実用的な対話システムの評価項目の同定手法
Authors: Mikio Nakano, Hironori Takeuchi, Kazunori Komatani,
Abstract要約: 本稿では,実用対話システムにおける評価項目の同定手法を提案する。従来、ユーザ満足度とユーザエクスペリエンスが、対話システムを評価する主要な指標でした。
参考スコア（独自算出の注目度）: 3.1415249818332813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a methodology for identifying evaluation items for practical dialogue systems. Traditionally, user satisfaction and user experiences have been the primary metrics for evaluating dialogue systems. However, there are various other evaluation items to consider when developing and operating practical dialogue systems, and such evaluation items are expected to lead to new research topics. So far, there has been no methodology for identifying these evaluation items. We propose identifying evaluation items based on business-dialogue system alignment models, which are applications of business-IT alignment models used in the development and operation of practical IT systems. We also present a generic model that facilitates the construction of a business-dialogue system alignment model for each dialogue system.
Abstract（参考訳）: 本稿では,実用対話システムにおける評価項目の同定手法を提案する。従来、ユーザ満足度とユーザエクスペリエンスが、対話システムを評価する主要な指標でした。しかし、実際の対話システムの開発と運用には、他にもさまざまな評価項目があり、これらの評価項目が新たな研究課題につながることが期待されている。これまでのところ、これらの評価項目を特定する方法論は存在していない。実践的なITシステムの開発と運用に使用されるビジネスITアライメントモデルの応用である,ビジネス対話システムアライメントモデルに基づく評価項目の同定を提案する。また,対話システム毎のビジネス対話システムアライメントモデルの構築を容易にする汎用モデルを提案する。

関連論文リスト

LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios [63.08653028889316]
エージェント推論フレームワークを分解し,これらのフレームワークがどのようにフレームワークレベルの推論を支配しているかを分析する。具体的には,エージェント推論システムを単一エージェントメソッド,ツールベースメソッド,マルチエージェントメソッドに分類するための統一形式言語を提案する。我々は、科学的発見、医療、ソフトウェア工学、社会シミュレーション、経済学における彼らの主要な応用シナリオを包括的にレビューする。
論文参考訳（メタデータ） (2025-08-25T06:01:16Z)
clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations [18.256529559741075]
クレム・トッドは、一貫した条件下で対話システムを体系的に評価するためのフレームワークである。プラグインとプレイの統合をサポートし、均一なデータセット、評価メトリクス、計算制約を保証する。我々の結果は、アーキテクチャ、スケール、および迅速な戦略が対話のパフォーマンスにどのように影響するかについての実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-08T17:36:36Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations [2.6122764214161363]
このレビューは、以前の作業で使われた構成とメトリクスの概要を提供する。また,対話システム評価の文脈における課題についても論じる。対話システム評価の将来に向けた研究課題を策定する。
論文参考訳（メタデータ） (2023-12-21T14:15:46Z)
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文参考訳（メタデータ） (2022-12-18T22:07:55Z)
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。 GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文参考訳（メタデータ） (2022-06-22T18:19:32Z)
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文参考訳（メタデータ） (2022-02-14T11:37:20Z)
Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文参考訳（メタデータ） (2021-05-06T10:30:13Z)
Evaluate On-the-job Learning Dialogue Systems and a Case Study for Natural Language Understanding [3.557633666039596]
本研究は,実地学習対話システムを評価するための最初の一般的な手法を提案する。タスク指向対話システムについて説明し,ユーザインタラクションを通じてジョブの自然言語コンポーネントを改善する。
論文参考訳（メタデータ） (2021-02-26T16:54:16Z)
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文参考訳（メタデータ） (2020-05-15T05:20:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。