論文の概要: CML-Bench: A Framework for Evaluating and Enhancing LLM-Powered Movie Scripts Generation
- arxiv url: http://arxiv.org/abs/2510.06231v1
- Date: Wed, 01 Oct 2025 08:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.036427
- Title: CML-Bench: A Framework for Evaluating and Enhancing LLM-Powered Movie Scripts Generation
- Title(参考訳): CML-Bench: LLMによる映画スクリプト生成の評価と改善のためのフレームワーク
- Authors: Mingzhe Zheng, Dingjie Song, Guanyu Zhou, Jun You, Jiahao Zhan, Xuran Ma, Xinyuan Song, Ser-Nam Lim, Qifeng Chen, Harry Yang,
- Abstract要約: 対話コヒーレンス(DC)、キャラクタ一貫性(CC)、Plot Reasonableness(PR)にまたがる定量的メトリクスを特徴とするCML-Benchを提案する。
CML-Benchは、熟練した人書きのスクリプトに効果的に高いスコアを割り当てる。
ベンチマークをさらに検証するために,文字対話とイベントロジックに関する詳細な指示を取り入れたプロンプト戦略であるCML-Instructionを導入する。
- 参考スコア(独自算出の注目度): 66.24195604846103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in generating highly structured texts. However, while exhibiting a high degree of structural organization, movie scripts demand an additional layer of nuanced storytelling and emotional depth-the 'soul' of compelling cinema-that LLMs often fail to capture. To investigate this deficiency, we first curated CML-Dataset, a dataset comprising (summary, content) pairs for Cinematic Markup Language (CML), where 'content' consists of segments from esteemed, high-quality movie scripts and 'summary' is a concise description of the content. Through an in-depth analysis of the intrinsic multi-shot continuity and narrative structures within these authentic scripts, we identified three pivotal dimensions for quality assessment: Dialogue Coherence (DC), Character Consistency (CC), and Plot Reasonableness (PR). Informed by these findings, we propose the CML-Bench, featuring quantitative metrics across these dimensions. CML-Bench effectively assigns high scores to well-crafted, human-written scripts while concurrently pinpointing the weaknesses in screenplays generated by LLMs. To further validate our benchmark, we introduce CML-Instruction, a prompting strategy with detailed instructions on character dialogue and event logic, to guide LLMs to generate more structured and cinematically sound scripts. Extensive experiments validate the effectiveness of our benchmark and demonstrate that LLMs guided by CML-Instruction generate higher-quality screenplays, with results aligned with human preferences.
- Abstract(参考訳): 大規模言語モデル (LLM) は高度に構造化されたテキストを生成するのに顕著な能力を示した。
しかし、高い構造構造を誇示する一方で、映画脚本は微妙なストーリーテリングと感情的な深さの付加層を必要とする。
この欠陥を調査するために,まずCML-DatasetというCinematic Markup Language (CML) のペアからなるデータセットをキュレートした。
これらの本文中の本質的なマルチショット連続性と物語構造を詳細に分析することにより,対話コヒーレンス(DC),キャラクタ一貫性(CC),Plot Reasonableness(PR)という,品質評価の3つの重要な要素を同定した。
これらの知見からCML-Benchを提案する。
CML-Benchは、LLMが生成するスクリーンプレイの弱点を同時に特定しながら、十分に製作された人手書きのスクリプトに高いスコアを割り当てる。
CML-Instructionは文字対話とイベントロジックの詳細な説明によるプロンプト戦略であり、LCMを誘導してより構造化され、映画的な音声スクリプトを生成する。
CML-Instruction で指導された LLM が高品質なスクリーンプレイを生成し,その結果が人間の嗜好に合致することを示した。
関連論文リスト
- RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - AgenticTagger: Structured Item Representation for Recommendation with LLM Agents [58.12004213978182]
AgenticTagger は LLM をクエリして,項目をテキスト記述子のシーケンスで表現するフレームワークである。
アイテムコーパス内の語彙を効果的かつ効率的に基底化するために,多エージェント反射機構を設計する。
公開データとプライベートデータの実験では、AgenticTaggerがさまざまなレコメンデーションシナリオに一貫した改善をもたらしている。
論文 参考訳(メタデータ) (2026-02-05T18:01:37Z) - NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization [0.0]
物語要約のための多エージェントLLMフレームワークであるNexusSumを紹介する。
物語固有の事前処理方法は、文字対話と記述テキストを統一されたフォーマットに標準化する。
本手法は物語要約における新たな最先端技術を確立し,書籍,映画,テレビ脚本間でBERTScore(F1)を最大30.0%向上させる。
論文 参考訳(メタデータ) (2025-05-30T13:26:23Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-28T20:37:57Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。