論文の概要: Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations
- arxiv url: http://arxiv.org/abs/2509.00841v1
- Date: Sun, 31 Aug 2025 13:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.423086
- Title: Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations
- Title(参考訳): オープンエンド会話の多次元評価のためのニューラルモデルと言語モデルプロンプト
- Authors: Michelle Elizabeth, Alicja Kasicka, Natalia Krawczyk, Magalie Ochs, Gwénolé Lecorvé, Justyna Gromada, Lina M. Rojas-Barahona,
- Abstract要約: 我々は,対話レベル,次元別スコアを予測するモデルを開発した。
本研究は,言語モデル(LM)をプロンプトとして活用し,エンコーダに基づく分類と回帰モデルを訓練する2つの主要な戦略に従う。
テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
- 参考スコア(独自算出の注目度): 1.0006801729628605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing number of generative AI-based dialogue systems has made their evaluation a crucial challenge. This paper presents our contribution to this important problem through the Dialogue System Technology Challenge (DSTC-12, Track 1), where we developed models to predict dialogue-level, dimension-specific scores. Given the constraint of using relatively small models (i.e. fewer than 13 billion parameters) our work follows two main strategies: employing Language Models (LMs) as evaluators through prompting, and training encoder-based classification and regression models. Our results show that while LM prompting achieves only modest correlations with human judgments, it still ranks second on the test set, outperformed only by the baseline. The regression and classification models, with significantly fewer parameters, demonstrate high correlation for some dimensions on the validation set. Although their performance decreases on the test set, it is important to note that the test set contains annotations with significantly different score ranges for some of the dimensions with respect to the train and validation sets.
- Abstract(参考訳): 生成AIベースの対話システムの増加は、その評価を重要な課題にしている。
本稿では,対話システム技術チャレンジ (DSTC-12, Track 1) を通じて,この重要な課題への貢献について述べる。
比較的小さなモデル(すなわち13億のパラメータ未満)を使用するという制約を考えると、我々の研究は2つの主要な戦略に従っている。
以上の結果から,LMプロンプトは人間の判断と微妙な相関しか得られないが,試験セットでは依然として第2位であり,ベースラインのみに優れていた。
回帰モデルと分類モデルは、パラメータが著しく少ないため、検証セット上のいくつかの次元に対して高い相関を示す。
テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
関連論文リスト
- Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings [9.763273544617176]
大規模言語モデル(LLM)は、ケース固有の微調整を必要とせずに複雑な対話タスクを処理できることが顕著に示されている。
本稿では,この課題に対処するための,シンプルながら効果的な枠組みを提案する。
本手法は、意図検出や対話状態追跡などのタスクを含む発話ごとの分類問題に特化して設計されている。
論文 参考訳(メタデータ) (2025-03-07T17:46:13Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。