論文の概要: The Oracle Has Spoken: A Multi-Aspect Evaluation of Dialogue in Pythia
- arxiv url: http://arxiv.org/abs/2509.16487v1
- Date: Sat, 20 Sep 2025 01:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.816203
- Title: The Oracle Has Spoken: A Multi-Aspect Evaluation of Dialogue in Pythia
- Title(参考訳): Oracleが注目: Pythiaにおける対話の多面的評価
- Authors: Zixun Chen, Petr Babkin, Akshat Gupta, Gopala Anumanchipalli, Xiaomo Liu,
- Abstract要約: 我々は、言語理論に動機づけられた対話のきめ細かい側面を対象とする、モデルベースメトリクスの包括的スイートを採用する。
プレトレーニングされたPythiaモデルの性能は、モデルのサイズや、会話データセットの教師付き微調整の結果、それぞれの次元でどのように変化するかを評価する。
- 参考スコア(独自算出の注目度): 23.88625177239693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue is one of the landmark abilities of large language models (LLMs). Despite its ubiquity, few studies actually distinguish specific ingredients underpinning dialogue behavior emerging during post-training. We employ a comprehensive suite of model-based metrics, each targeting a distinct fine-grained aspect of dialogue, motivated by linguistic theory. We evaluate how the performance of pre-trained Pythia models changes with respect to each of those dimensions, depending on model size and as a result of supervised fine-tuning on conversational datasets. We observe only a mild impact of raw model size on most metrics, whereas fine-tuning quickly saturates the scores for all but the smallest models tested. Somewhat contrary to our expectations, many metrics show very similar trends, especially if they are all rooted in the same evaluator model, which raises the question of their reliability in measuring a specific dimension. To that end, we conduct additional analyses of score distributions, metric correlations, and term frequencies in generated responses to help explain our observations.
- Abstract(参考訳): 対話は、大きな言語モデル(LLM)の目覚ましい能力の1つである。
その普遍性にもかかわらず、ポストトレーニング中に出現する対話行動を支える特定の成分を実際に区別する研究はほとんどない。
我々は、言語理論に動機づけられた対話のきめ細かい側面を対象とする、モデルベースメトリクスの包括的スイートを採用する。
プレトレーニングされたPythiaモデルの性能は、モデルのサイズや、会話データセットの教師付き微調整の結果、それぞれの次元でどのように変化するかを評価する。
ほとんどの指標では生のモデルサイズが軽度にしか影響しないのに対して、微調整はテスト対象の最小モデルを除くすべてのスコアを急速に飽和させる。
私たちの期待に反して、多くのメトリクスは、特にそれらがすべて同じ評価モデルに根ざしている場合、非常によく似た傾向を示します。
そこで我々は, 生成した応答におけるスコア分布, 距離相関, 項周波数のさらなる分析を行い, 観測結果の説明に役立てる。
関連論文リスト
- Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations [1.0006801729628605]
我々は,対話レベル,次元別スコアを予測するモデルを開発した。
本研究は,言語モデル(LM)をプロンプトとして活用し,エンコーダに基づく分類と回帰モデルを訓練する2つの主要な戦略に従う。
テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
論文 参考訳(メタデータ) (2025-08-31T13:24:05Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - A Focused Study on Sequence Length for Dialogue Summarization [68.73335643440957]
既存のモデルの出力とそれに対応する人間の参照の長さの差を解析する。
モデル設定を比較し,要約長予測のための有能な特徴を同定する。
第3に,要約長を十分に組み込むことができれば,既存のモデルに顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-09-24T02:49:48Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - CONFIT: Toward Faithful Dialogue Summarization with
Linguistically-Informed Contrastive Fine-tuning [5.389540975316299]
生成された要約における現実的な矛盾は、抽象的な対話要約の実践的応用を著しく制限する。
本稿では,エラーのタイプを強調し,事実性に対する二項的理解から遠ざかるために,アノテーションデータを用いた事実的エラーのタイプ分析を行う。
本稿では,ConFiTと呼ばれる新しいコントラスト微調整手法により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T09:08:40Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。