Fugu-MT 論文翻訳(概要): MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

論文の概要: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

arxiv url: http://arxiv.org/abs/2602.23228v1
Date: Thu, 26 Feb 2026 17:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.803133
Title: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction
Title（参考訳）: MovieTeller: ID一貫性のあるプログレッシブ抽象化を備えたツール強化映画シンボプシス
Authors: Yizhi Li, Xiaohan Chen, Miao Jiang, Wentao Tang, Gaoang Wang,
Abstract要約: MovieTellerは、ツール拡張プログレッシブ抽象化による映画のシナプスを生成するための新しいフレームワークである。当社のコアコントリビューションは、トレーニング不要、ツール拡張、ファクトグラウンド生成プロセスです。実験により,本手法は,事実の正確性,キャラクタの整合性,全体的物語コヒーレンスを著しく向上させることが示された。
参考スコア（独自算出の注目度）: 33.39285561943112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the explosive growth of digital entertainment, automated video summarization has become indispensable for applications such as content indexing, personalized recommendation, and efficient media archiving. Automatic synopsis generation for long-form videos, such as movies and TV series, presents a significant challenge for existing Vision-Language Models (VLMs). While proficient at single-image captioning, these general-purpose models often exhibit critical failures in long-duration contexts, primarily a lack of ID-consistent character identification and a fractured narrative coherence. To overcome these limitations, we propose MovieTeller, a novel framework for generating movie synopses via tool-augmented progressive abstraction. Our core contribution is a training-free, tool-augmented, fact-grounded generation process. Instead of requiring costly model fine-tuning, our framework directly leverages off-the-shelf models in a plug-and-play manner. We first invoke a specialized face recognition model as an external "tool" to establish Factual Groundings--precise character identities and their corresponding bounding boxes. These groundings are then injected into the prompt to steer the VLM's reasoning, ensuring the generated scene descriptions are anchored to verifiable facts. Furthermore, our progressive abstraction pipeline decomposes the summarization of a full-length movie into a multi-stage process, effectively mitigating the context length limitations of current VLMs. Experiments demonstrate that our approach yields significant improvements in factual accuracy, character consistency, and overall narrative coherence compared to end-to-end baselines.
Abstract（参考訳）: デジタルエンターテイメントの爆発的な成長に伴い、コンテンツインデクシング、パーソナライズドレコメンデーション、効率的なメディアアーカイブといったアプリケーションには、自動化されたビデオ要約が不可欠になっている。映画やテレビシリーズなどの長編ビデオの自動合成生成は、既存のビジョン・ランゲージ・モデル(VLM)にとって重要な課題である。単一画像のキャプションに精通している一方で、これらの汎用モデルは、主にID一貫性のあるキャプションの欠如と、破壊的な物語コヒーレンス(英語版)の欠如など、長期の文脈において重要な失敗をしばしば示している。このような制約を克服するために,ツール拡張プログレッシブ抽象化による映画シンプ生成のための新しいフレームワークであるMovieTellerを提案する。当社のコアコントリビューションは、トレーニング不要、ツール拡張、ファクトグラウンド生成プロセスです。我々のフレームワークは、高価なモデル微調整を必要とするのではなく、プラグ・アンド・プレイ方式でオフ・ザ・シェルフモデルを直接活用します。まず,特殊顔認識モデルを外部の「ツール」として呼び出して,文字の精度とそれに対応するバウンディングボックスを確立する。これらの根拠は、VLMの推論を操縦するプロンプトに注入され、生成されたシーン記述が検証可能な事実に固定されることが保証される。さらに, プログレッシブ抽象化パイプラインは, フル長フィルムのマルチステージプロセスへの要約を分解し, 現在のVLMのコンテキスト長制限を効果的に緩和する。実験により,本手法は,エンド・ツー・エンドのベースラインと比較して,事実の精度,キャラクタの整合性,全体的な物語コヒーレンスを著しく向上させることが示された。

関連論文リスト

Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文参考訳（メタデータ） (2026-02-12T10:14:36Z)
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。 ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2026-01-25T08:10:28Z)
Lights, Camera, Consistency: A Multistage Pipeline for Character-Stable AI Video Stories [5.022547031373416]
映画製作者のような方法で映像生成にアプローチする手法を提案する。 1ステップでビデオを作成する代わりに、提案したパイプラインは、まず大きな言語モデルを使用して、詳細なプロダクションスクリプトを生成する。このスクリプトは、各キャラクタに対して一貫したヴィジュアライゼーションを作成するためのテキスト・ツー・イメージモデルをガイドし、各シーンを個別に合成するビデオ生成モデルのアンカーとして機能する。
論文参考訳（メタデータ） (2025-12-17T18:10:27Z)
AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文参考訳（メタデータ） (2025-12-11T18:59:34Z)
ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文参考訳（メタデータ） (2025-11-01T11:29:14Z)
DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文参考訳（メタデータ） (2024-10-18T17:56:11Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文参考訳（メタデータ） (2024-06-16T12:58:31Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。