論文の概要: DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
- arxiv url: http://arxiv.org/abs/2512.19012v2
- Date: Tue, 23 Dec 2025 06:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 15:12:21.135433
- Title: DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
- Title(参考訳): DramaBench: ドラマスクリプト継続のための6次元評価フレームワーク
- Authors: Shijian Ma, Yunqi Huang, Yan Lin,
- Abstract要約: ドラマスクリプトの継続には、キャラクターの一貫性を維持し、プロットを忠実に前進させ、劇的な構造能力を維持するモデルが必要である。
6次元にわたるドラマ脚本の連続性を評価するための,最初の大規模ベンチマークであるDramaBenchを紹介する。
- 参考スコア(独自算出の注目度): 3.496854427764583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.
- Abstract(参考訳): ドラマスクリプトの継続には、キャラクタ一貫性の維持、プロットのコヒーレント化、既存のベンチマークが包括的に評価できない劇的な構造能力の維持といったモデルが必要である。
本稿では,6つの独立した次元(フォーマ標準,ナララティブ効率,キャラクタ一貫性,感情深さ,論理一貫性,競合処理)でドラマ脚本の連続性を評価するための最初の大規模ベンチマークであるDramaBenchを紹介する。
我々のフレームワークはルールベース分析とLCMに基づくラベル付けと統計メトリクスを組み合わせることで、客観的かつ再現可能な評価を確実にする。
我々は,1,103文字(合計8,824文字)に関する8つの最先端言語モデルについて,厳密な統計的意義試験(ペアワイド比較252件,65.9%の有意)と人間の検証(188スクリプト,3/5次元に関する実質的な合意)を行い,包括的評価を行った。
我々のアブレーション研究は、6次元全てが独立した品質面(平均 | r | = 0.020)を捉えていることを確認する。
DramaBenchは、モデル改善のためのアクション可能な、次元固有のフィードバックを提供し、クリエイティブな書き込み評価のための厳格な標準を確立します。
関連論文リスト
- What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation [59.626962970198434]
最初の大規模ベンチマークであるLongStoryEvalを導入し,平均121Kトークン(最大397K)の600冊を新たに発行した。
ユーザによるすべての側面の分析により、評価基準構造を提案し、最も重要な側面を識別するための実験を行う。
評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
論文 参考訳(メタデータ) (2025-12-14T20:53:29Z) - Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization [6.057968525653529]
本稿では,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論中、境界シーンはそれぞれの記述に基づいて独立してスコアされる。
論文 参考訳(メタデータ) (2025-10-20T12:54:32Z) - ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchは、さまざまな物語構造、視覚スタイル、キャラクター設定にわたるストーリービジュアライゼーションモデルを評価するために設計された包括的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
徹底的な評価を可能にするために、ViStoryBenchは、文字の一貫性、スタイルの類似性、迅速な順守、美的品質、生成アーティファクトを評価する一連の自動メトリクスを導入した。
論文 参考訳(メタデータ) (2025-05-30T17:58:21Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。