論文の概要: Comparative Study of Large Language Models on Chinese Film Script Continuation: An Empirical Analysis Based on GPT-5.2 and Qwen-Max
- arxiv url: http://arxiv.org/abs/2601.14826v1
- Date: Wed, 21 Jan 2026 09:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.32352
- Title: Comparative Study of Large Language Models on Chinese Film Script Continuation: An Empirical Analysis Based on GPT-5.2 and Qwen-Max
- Title(参考訳): GPT-5.2とQwen-Maxに基づく中国映画スクリプト継続に関する大規模言語モデルの比較研究
- Authors: Yuxuan Cao, Zida Yang, Ye Wang,
- Abstract要約: 本研究は,53本の古典映画からなる中国初の映画脚本継続ベンチマークを構築した。
評価にはROUGE-L, 構造類似性, LLM-as-Judgeスコアが組み込まれている。
GPT-5.2は文字の一貫性、トーンスタイルのマッチング、フォーマットの保存に優れており、Qwen-Maxは生成安定性の欠如を示している。
- 参考スコア(独自算出の注目度): 6.2773052078641385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly applied to creative writing, their performance on culturally specific narrative tasks warrants systematic investigation. This study constructs the first Chinese film script continuation benchmark comprising 53 classic films, and designs a multi-dimensional evaluation framework comparing GPT-5.2 and Qwen-Max-Latest. Using a "first half to second half" continuation paradigm with 3 samples per film, we obtained 303 valid samples (GPT-5.2: 157, 98.7% validity; Qwen-Max: 146, 91.8% validity). Evaluation integrates ROUGE-L, Structural Similarity, and LLM-as-Judge scoring (DeepSeek-Reasoner). Statistical analysis of 144 paired samples reveals: Qwen-Max achieves marginally higher ROUGE-L (0.2230 vs 0.2114, d=-0.43); however, GPT-5.2 significantly outperforms in structural preservation (0.93 vs 0.75, d=0.46), overall quality (44.79 vs 25.72, d=1.04), and composite scores (0.50 vs 0.39, d=0.84). The overall quality effect size reaches large effect level (d>0.8). GPT-5.2 excels in character consistency, tone-style matching, and format preservation, while Qwen-Max shows deficiencies in generation stability. This study provides a reproducible framework for LLM evaluation in Chinese creative writing.
- Abstract(参考訳): 大規模言語モデル(LLM)が創造的執筆にますます適用されるにつれて、文化的に特定の物語課題におけるそのパフォーマンスは体系的な調査を保証している。
本研究は、53の古典映画からなる最初の中国映画脚本継続ベンチマークを構築し、GPT-5.2とQwen-Max-Updateを比較した多次元評価フレームワークを設計する。
1フィルムあたり3サンプルの「前半から後半」継続パラダイムを用いて303サンプル(GPT-5.2:157,98.7%,Qwen-Max:146,91.8%)を得た。
評価にはROUGE-L, 構造類似性, LLM-as-Judge score(DeepSeek-Reasoner)が組み込まれている。
Qwen-Max は ROUGE-L (0.2230 vs 0.2114, d=-0.43), GPT-5.2 は構造保存 (0.93 vs 0.75, d=0.46), 全体的な品質 (44.79 vs 25.72, d=1.04), 複合スコア (0.50 vs 0.39, d=0.84) において著しく優れていた。
全体的な品質効果の大きさは、大きな効果レベル(d>0.8)に達する。
GPT-5.2は文字の一貫性、トーンスタイルのマッチング、フォーマットの保存に優れており、Qwen-Maxは生成安定性の欠如を示している。
本研究は,中国の創作作品におけるLLM評価のための再現可能な枠組みを提供する。
関連論文リスト
- DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation [3.496854427764583]
ドラマスクリプトの継続には、キャラクターの一貫性を維持し、プロットを忠実に前進させ、劇的な構造能力を維持するモデルが必要である。
6次元にわたるドラマ脚本の連続性を評価するための,最初の大規模ベンチマークであるDramaBenchを紹介する。
論文 参考訳(メタデータ) (2025-12-22T04:03:01Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - How Well Do LLMs Imitate Human Writing Style? [2.3754840025365183]
大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
論文 参考訳(メタデータ) (2025-09-29T15:34:40Z) - VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。