論文の概要: StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles
- arxiv url: http://arxiv.org/abs/2602.21829v1
- Date: Wed, 25 Feb 2026 12:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.821203
- Title: StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles
- Title(参考訳): StoryMovie: 映画脚本と字幕付きビジュアルストーリーのセマンティックアライメントのためのデータセット
- Authors: Daniel Oliveira, David Martins de Matos,
- Abstract要約: イメージ内のエンティティを正しくグラウンドするビジュアルストーリーテリングモデルは、セマンティックな関係を幻覚させる可能性がある。
映画脚本や字幕に合わせた1,757ストーリーのデータセットであるStoryMovieをLCSマッチングで紹介する。
我々のアライメントパイプラインは、画面の対話をサブタイトルのタイムスタンプと同期させ、対話の帰属を可能にする。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling models that correctly ground entities in images may still hallucinate semantic relationships, generating incorrect dialogue attribution, character interactions, or emotional states. We introduce StoryMovie, a dataset of 1,757 stories aligned with movie scripts and subtitles through LCS matching. Our alignment pipeline synchronizes screenplay dialogue with subtitle timestamps, enabling dialogue attribution by linking character names from scripts to temporal positions from subtitles. Using this aligned content, we generate stories that maintain visual grounding tags while incorporating authentic character names, dialogue, and relationship dynamics. We fine-tune Qwen Storyteller3 on this dataset, building on prior work in visual grounding and entity re-identification. Evaluation using DeepSeek V3 as judge shows that Storyteller3 achieves an 89.9% win rate against base Qwen2.5-VL 7B on subtitle alignment. Compared to Storyteller, trained without script grounding, Storyteller3 achieves 48.5% versus 38.0%, confirming that semantic alignment progressively improves dialogue attribution beyond visual grounding alone.
- Abstract(参考訳): 画像内のエンティティを正しく接地するビジュアルストーリーテリングモデルは、いまだに意味的関係を幻覚させ、誤った対話属性、キャラクターの相互作用、感情状態を生成する。
映画脚本や字幕に合わせた1,757ストーリーのデータセットであるStoryMovieをLCSマッチングで紹介する。
我々のアライメントパイプラインは、字幕のタイムスタンプと画面対話を同期させ、字幕の文字名と字幕の時間的位置をリンクすることで、対話の帰属を可能にする。
このアライメントされたコンテンツを用いて、正確な文字名、対話、関係ダイナミクスを取り入れつつ、視覚的な接地タグを維持するストーリーを生成する。
このデータセットでQwen Storyteller3を微調整し、視覚的グラウンドリングとエンティティ再識別の事前作業に基づいて構築します。
DeepSeek V3を審査員として評価したところ、ストーリーテラー3はサブタイトルアライメントでQwen2.5-VL 7Bに対して89.9%の勝利率を達成した。
Storyteller3はスクリプトグラウンディングなしで訓練されたストーリーテラーと比較して48.5%対38.0%で達成し、セマンティックアライメントが視覚グラウンディング以外の対話の属性を徐々に改善することを確認した。
関連論文リスト
- StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation [1.0312968200748118]
ビジュアルストーリーテリングシステムは、フレームをまたいだキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労する。
52,016本の映画画像から得られた4,178個のストーリーを含むデータセットであるStoryReasoningを提案する。
非微調整モデルと比較して,1ストーリー平均で4.06から3.56(-12.3%)の幻覚が減少し,クリエイティビティが2.58から3.38(+31.0%)に改善した。
論文 参考訳(メタデータ) (2025-05-15T13:42:14Z) - FocusedAD: Character-centric Movie Audio Description [20.257919582999133]
Movie Audio Description (AD)は、対話のないセグメントで視覚コンテンツを語り、特に視覚障害者(BVI)の聴衆に利益をもたらすことを目的としている。
キャラクタ中心の映画音声記述を提供する新しいフレームワークであるFocusedADを提案する。
論文 参考訳(メタデータ) (2025-04-16T15:04:14Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。