論文の概要: Automatic Funny Scene Extraction from Long-form Cinematic Videos
- arxiv url: http://arxiv.org/abs/2602.15381v1
- Date: Tue, 17 Feb 2026 06:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.997037
- Title: Automatic Funny Scene Extraction from Long-form Cinematic Videos
- Title(参考訳): ロングフォームシネマティックビデオからのファンニーシーンの自動抽出
- Authors: Sibendu Paul, Haotian Jiang, Caren Chen,
- Abstract要約: 本稿では,長編映画のタイトルからユーモラスなシーンを自動的に識別し,ランキング付けするエンド・ツー・エンドシステムを提案する。
主なイノベーションは、視覚とテキストを組み合わせた新しいシーンセグメンテーションアプローチ、ガイド付きトリプルトマイニングによるショット表現の改善、マルチモーダルなユーモアタグフレームワークである。
提案システムは,OVSDデータセット上での最先端シーン検出に対して18.3%のAP改善を実現し,長文でユーモアを検出するためのF1スコアが0.834である。
- 参考スコア(独自算出の注目度): 7.091433418463428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically extracting engaging and high-quality humorous scenes from cinematic titles is pivotal for creating captivating video previews and snackable content, boosting user engagement on streaming platforms. Long-form cinematic titles, with their extended duration and complex narratives, challenge scene localization, while humor's reliance on diverse modalities and its nuanced style add further complexity. This paper introduces an end-to-end system for automatically identifying and ranking humorous scenes from long-form cinematic titles, featuring shot detection, multimodal scene localization, and humor tagging optimized for cinematic content. Key innovations include a novel scene segmentation approach combining visual and textual cues, improved shot representations via guided triplet mining, and a multimodal humor tagging framework leveraging both audio and text. Our system achieves an 18.3% AP improvement over state-of-the-art scene detection on the OVSD dataset and an F1 score of 0.834 for detecting humor in long text. Extensive evaluations across five cinematic titles demonstrate 87% of clips extracted by our pipeline are intended to be funny, while 98% of scenes are accurately localized. With successful generalization to trailers, these results showcase the pipeline's potential to enhance content creation workflows, improve user engagement, and streamline snackable content generation for diverse cinematic media formats.
- Abstract(参考訳): 映画タイトルからエンゲージメントと質の高いユーモラスなシーンを自動的に抽出することは、魅力的なビデオプレビューとスナックなコンテンツを制作し、ストリーミングプラットフォームでのユーザーエンゲージメントを高める上で重要な要素だ。
長い形式の映画タイトルは、長い期間と複雑な物語を持ち、シーンのローカライゼーションに挑戦する一方で、ユーモアは様々なモダリティやニュアンスなスタイルに依存しているため、さらに複雑になる。
本稿では,映像コンテンツに最適化された映像検出,マルチモーダルシーンのローカライゼーション,ユーモアタグ付けを特徴とする,映像タイトルからユーモラスシーンを自動的に識別・ランキングするエンド・ツー・エンドシステムを提案する。
主な革新としては、視覚とテキストの組み合わせによるシーンセグメンテーションアプローチ、ガイド付きトリプルトマイニングによるショット表現の改善、オーディオとテキストの両方を活用するマルチモーダルなユーモアタグフレームワークなどがある。
提案システムは,OVSDデータセット上での最先端シーン検出に対して18.3%のAP改善を実現し,長文でユーモアを検出するためのF1スコアが0.834である。
5つの映画タイトルの大規模な評価は、パイプラインから抽出されたクリップの87%が面白いことを意図しており、シーンの98%が正確にローカライズされていることを示している。
トレーラーへの一般化の成功により、これらの結果は、パイプラインがコンテンツ作成ワークフローを強化し、ユーザーエンゲージメントを改善し、様々な映画メディアフォーマットでスナック可能なコンテンツ生成を効率化する可能性を示している。
関連論文リスト
- From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [16.83482677439144]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
大規模言語モデル(LLM)を用いて入力スクリプトを構築し、粗粒度シーン計画と細粒度オブジェクトレベルのレイアウトと動き計画の両方を容易にする。
DreamRunnerは、検索拡張されたテストタイムアダプションで、各シーンのオブジェクトのターゲットモーションをキャプチャし、検索されたビデオに基づいたさまざまなモーションカスタマイズをサポートする。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。