論文の概要: Evaluating LLM-Generated Versus Human-Authored Responses in Role-Play Dialogues
- arxiv url: http://arxiv.org/abs/2509.17694v2
- Date: Wed, 08 Oct 2025 23:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.697856
- Title: Evaluating LLM-Generated Versus Human-Authored Responses in Role-Play Dialogues
- Title(参考訳): ロールプレイ対話におけるLLM生成による人間認証応答の評価
- Authors: Dongxu Lu, Johan Jeuring, Albert Gatt,
- Abstract要約: 本研究では,マルチターン・プロフェッショナル・トレーニング・シミュレーションにおけるLLMと人間による応答を比較した。
人体評価の結果,LLM生成応答品質はターン毎に著しく低下した。
参加者はまた、人間が書いた対話に対して一貫した好みを示した。
- 参考スコア(独自算出の注目度): 4.4260965078852275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) in long-form, knowledge-grounded role-play dialogues remains challenging. This study compares LLM-generated and human-authored responses in multi-turn professional training simulations through human evaluation ($N=38$) and automated LLM-as-a-judge assessment. Human evaluation revealed significant degradation in LLM-generated response quality across turns, particularly in naturalness, context maintenance and overall quality, while human-authored responses progressively improved. In line with this finding, participants also indicated a consistent preference for human-authored dialogue. These human judgements were validated by our automated LLM-as-a-judge evaluation, where Gemini 2.0 Flash achieved strong alignment with human evaluators on both zero-shot pairwise preference and stochastic 6-shot construct ratings, confirming the widening quality gap between LLM and human responses over time. Our work contributes a multi-turn benchmark exposing LLM degradation in knowledge-grounded role-play dialogues and provides a validated hybrid evaluation framework to guide the reliable integration of LLMs in training simulations.
- Abstract(参考訳): 長大な言語モデル(LLM)を知識に基づくロールプレイ対話で評価することは依然として困難である。
本研究は, 人的評価(N=38$)と自動LLM-as-a-judgeアセスメントによる多ターンプロトレーニングシミュレーションにおけるLLM生成と人間による応答を比較した。
人的評価では,特に自然性,文脈維持,全体的な品質において,LLM生成の応答品質が著しく低下し,人為的応答は徐々に改善した。
この結果と一致して、参加者は人間による対話に一貫した嗜好を示した。
これらの人的判断は自動LLM-as-a-judge評価によって検証され、Gemini 2.0 Flashはゼロショット対選好と確率論的6ショット構成評価の両方において人間の評価者と強い整合性を達成し、LLMと人間の反応の間に時間とともに品質ギャップが広がることを確認した。
本研究は,知識ベースロールプレイ対話におけるLLMの劣化を露呈するマルチターンベンチマークに寄与し,学習シミュレーションにおけるLLMの信頼性統合を導くための検証されたハイブリッド評価フレームワークを提供する。
関連論文リスト
- Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。