論文の概要: R$^2$: A LLM Based Novel-to-Screenplay Generation Framework with Causal Plot Graphs
- arxiv url: http://arxiv.org/abs/2503.15655v1
- Date: Wed, 19 Mar 2025 19:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.150495
- Title: R$^2$: A LLM Based Novel-to-Screenplay Generation Framework with Causal Plot Graphs
- Title(参考訳): R$^2$:Causal Plot Graphsを用いたLLMによるノベル・ツー・Screenplay生成フレームワーク
- Authors: Zefeng Lin, Yi Xiao, Zhiqiang Mo, Qifan Zhang, Jie Wang, Jiayang Chen, Jiajing Zhang, Hui Zhang, Zhengyi Liu, Xianyong Fang, Xiaohua Xu,
- Abstract要約: 大規模言語モデル(LLM)に基づく脚本に小説を自動的に適応するフレームワークを提案する。
因果組込みプロット線を効果的に抽出してコヒーレントな書き換えを行う。
1) 幻覚の愛着を反復的に発見・排除するA-Aware refinement method (HAR) と, 2 事象因果関係を持つプロット線を効率的に構築する欲求サイクルブレーカリングアルゴリズムに基づく因果プロットグラフ構築法 (CPC) の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 12.751879151553918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically adapting novels into screenplays is important for the TV, film, or opera industries to promote products with low costs. The strong performances of large language models (LLMs) in long-text generation call us to propose a LLM based framework Reader-Rewriter (R$^2$) for this task. However, there are two fundamental challenges here. First, the LLM hallucinations may cause inconsistent plot extraction and screenplay generation. Second, the causality-embedded plot lines should be effectively extracted for coherent rewriting. Therefore, two corresponding tactics are proposed: 1) A hallucination-aware refinement method (HAR) to iteratively discover and eliminate the affections of hallucinations; and 2) a causal plot-graph construction method (CPC) based on a greedy cycle-breaking algorithm to efficiently construct plot lines with event causalities. Recruiting those efficient techniques, R$^2$ utilizes two modules to mimic the human screenplay rewriting process: The Reader module adopts a sliding window and CPC to build the causal plot graphs, while the Rewriter module generates first the scene outlines based on the graphs and then the screenplays. HAR is integrated into both modules for accurate inferences of LLMs. Experimental results demonstrate the superiority of R$^2$, which substantially outperforms three existing approaches (51.3%, 22.6%, and 57.1% absolute increases) in pairwise comparison at the overall win rate for GPT-4o.
- Abstract(参考訳): 脚本に小説を自動的に適応させることは、テレビ、映画、オペラ業界にとって、低コストで製品を宣伝するために重要である。
LLMベースのフレームワークであるReader-Rewriter (R$^2$)を提案する。
しかし、ここでは2つの根本的な課題があります。
まず、LLM幻覚は、矛盾したプロット抽出とスクリーンプレイ生成を引き起こす可能性がある。
第二に、因果組込みプロット線を効果的に抽出してコヒーレントな書き換えを行う。
そのため、以下の2つの戦術が提案されている。
1)幻覚の愛着を反復的に発見・排除する幻覚認識改善法(HAR)
2) イベント因果関係のあるプロットラインを効率的に構築する,欲求サイクルブレーカーアルゴリズムに基づく因果プロットグラフ構築法(CPC)を提案する。
ReaderモジュールはスライディングウィンドウとCPCを採用して因果プロットグラフを構築し、Rewriterモジュールはまず、グラフに基づいてシーンのアウトラインを生成し、それからスクリーンプレイを生成する。
HARは両方のモジュールに統合され、LLMの正確な推測を行う。
実験の結果、GPT-4oの総勝利率における対比較において、R$^2$は既存の3つのアプローチ(51.3%、22.6%、57.1%の絶対的な増加)を大幅に上回った。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則である
シーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - IGDA: Interactive Graph Discovery through Large Language Model Agents [6.704529554100875]
大規模な言語モデル(textbfLLMs$)が発見の強力な方法として登場した。
我々は既存の数値駆動型手法を補完するグラフ発見のための強力な手法として$textbfIGDA$を提案する。
論文 参考訳(メタデータ) (2025-02-24T14:24:27Z) - Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。
LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。
テキスト長の増加に伴い,テストのI型およびII型エラーが指数関数的に減少することを示す。
我々の研究は、有害または偽のLCM生成テキストの起源を確実に発見することを可能にし、新たなAI規制に対する誤った情報やコンプライアンスに対抗するのに役立ちます。
論文 参考訳(メタデータ) (2025-01-04T23:51:43Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - FiSTECH: Financial Style Transfer to Enhance Creativity without Hallucinations in LLMs [0.3958317527488534]
我々は,大規模言語モデル(LLM)の自己修正的自己回帰特性を探求し,最小限のプロンプトで書き方で創造性を学習する。
本稿では,2段階のファインチューニング(FT)戦略を提案し,第1段階のパブリックドメインファイナンシャルレポートを用いて書体スタイルのトレーニングを行い,LLMの幻覚を許容する。
提案する2段階ファインチューニングは,幻覚を50%以上減らしながら,2段階の金融質問の精度を向上する。
論文 参考訳(メタデータ) (2024-08-09T22:29:23Z) - Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots [66.95139377783966]
マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
論文 参考訳(メタデータ) (2024-05-13T17:59:22Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。