論文の概要: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction
- arxiv url: http://arxiv.org/abs/2602.23228v1
- Date: Thu, 26 Feb 2026 17:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.803133
- Title: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction
- Title(参考訳): MovieTeller: ID一貫性のあるプログレッシブ抽象化を備えたツール強化映画シンボプシス
- Authors: Yizhi Li, Xiaohan Chen, Miao Jiang, Wentao Tang, Gaoang Wang,
- Abstract要約: MovieTellerは、ツール拡張プログレッシブ抽象化による映画のシナプスを生成するための新しいフレームワークである。
当社のコアコントリビューションは、トレーニング不要、ツール拡張、ファクトグラウンド生成プロセスです。
実験により,本手法は,事実の正確性,キャラクタの整合性,全体的物語コヒーレンスを著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 33.39285561943112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosive growth of digital entertainment, automated video summarization has become indispensable for applications such as content indexing, personalized recommendation, and efficient media archiving. Automatic synopsis generation for long-form videos, such as movies and TV series, presents a significant challenge for existing Vision-Language Models (VLMs). While proficient at single-image captioning, these general-purpose models often exhibit critical failures in long-duration contexts, primarily a lack of ID-consistent character identification and a fractured narrative coherence. To overcome these limitations, we propose MovieTeller, a novel framework for generating movie synopses via tool-augmented progressive abstraction. Our core contribution is a training-free, tool-augmented, fact-grounded generation process. Instead of requiring costly model fine-tuning, our framework directly leverages off-the-shelf models in a plug-and-play manner. We first invoke a specialized face recognition model as an external "tool" to establish Factual Groundings--precise character identities and their corresponding bounding boxes. These groundings are then injected into the prompt to steer the VLM's reasoning, ensuring the generated scene descriptions are anchored to verifiable facts. Furthermore, our progressive abstraction pipeline decomposes the summarization of a full-length movie into a multi-stage process, effectively mitigating the context length limitations of current VLMs. Experiments demonstrate that our approach yields significant improvements in factual accuracy, character consistency, and overall narrative coherence compared to end-to-end baselines.
- Abstract(参考訳): デジタルエンターテイメントの爆発的な成長に伴い、コンテンツインデクシング、パーソナライズドレコメンデーション、効率的なメディアアーカイブといったアプリケーションには、自動化されたビデオ要約が不可欠になっている。
映画やテレビシリーズなどの長編ビデオの自動合成生成は、既存のビジョン・ランゲージ・モデル(VLM)にとって重要な課題である。
単一画像のキャプションに精通している一方で、これらの汎用モデルは、主にID一貫性のあるキャプションの欠如と、破壊的な物語コヒーレンス(英語版)の欠如など、長期の文脈において重要な失敗をしばしば示している。
このような制約を克服するために,ツール拡張プログレッシブ抽象化による映画シンプ生成のための新しいフレームワークであるMovieTellerを提案する。
当社のコアコントリビューションは、トレーニング不要、ツール拡張、ファクトグラウンド生成プロセスです。
我々のフレームワークは、高価なモデル微調整を必要とするのではなく、プラグ・アンド・プレイ方式でオフ・ザ・シェルフモデルを直接活用します。
まず,特殊顔認識モデルを外部の「ツール」として呼び出して,文字の精度とそれに対応するバウンディングボックスを確立する。
これらの根拠は、VLMの推論を操縦するプロンプトに注入され、生成されたシーン記述が検証可能な事実に固定されることが保証される。
さらに, プログレッシブ抽象化パイプラインは, フル長フィルムのマルチステージプロセスへの要約を分解し, 現在のVLMのコンテキスト長制限を効果的に緩和する。
実験により,本手法は,エンド・ツー・エンドのベースラインと比較して,事実の精度,キャラクタの整合性,全体的な物語コヒーレンスを著しく向上させることが示された。
関連論文リスト
- The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。
ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。
本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-25T08:10:28Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T17:56:11Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。