論文の概要: Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.21778v1
- Date: Thu, 25 Dec 2025 20:31:36 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:25.983386
- Title: Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models
- Title(参考訳): シーンVLM:視覚言語モデルによるマルチモーダル映像シーンセグメンテーション
- Authors: Nimrod Berman, Adam Botach, Emanuel Ben-Baruch, Shunit Haviv Hakimi, Asaf Gendler, Ilan Naiman, Erez Yosef, Igor Kviatkovsky,
- Abstract要約: 本稿では,ビデオシーンセグメンテーションのための視覚言語モデル(VLM)フレームワークであるScene-VLMを紹介する。
Scene-VLMは、フレーム、転写、オプションメタデータを含む視覚的およびテキスト的キューを共同で処理し、マルチモーダル推論を可能にする。
提案手法は,標準的なシーンセグメンテーションベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.26681509535044
- License:
- Abstract: Segmenting long-form videos into semantically coherent scenes is a fundamental task in large-scale video understanding. Existing encoder-based methods are limited by visual-centric biases, classify each shot in isolation without leveraging sequential dependencies, and lack both narrative understanding and explainability. In this paper, we present Scene-VLM, the first fine-tuned vision-language model (VLM) framework for video scene segmentation. Scene-VLM jointly processes visual and textual cues including frames, transcriptions, and optional metadata to enable multimodal reasoning across consecutive shots. The model generates predictions sequentially with causal dependencies among shots and introduces a context-focus window mechanism to ensure sufficient temporal context for each shot-level decision. In addition, we propose a scheme to extract confidence scores from the token-level logits of the VLM, enabling controllable precision-recall trade-offs that were previously limited to encoder-based methods. Furthermore, we demonstrate that our model can be aligned to generate coherent natural-language rationales for its boundary decisions through minimal targeted supervision. Our approach achieves state-of-the-art performance on standard scene segmentation benchmarks. On MovieNet, for example, Scene-VLM yields significant improvements of +6 AP and +13.7 F1 over the previous leading method.
- Abstract(参考訳): 長いビデオのセグメンテーションを意味的に一貫性のあるシーンに分割することは、大規模ビデオ理解の基本的な課題である。
既存のエンコーダベースの手法は、視覚中心のバイアスによって制限され、それぞれのショットを連続的な依存関係を活用せずに分離し、物語の理解と説明可能性の両方が欠如している。
本稿では,ビデオシーンセグメンテーションのための視覚言語モデル(VLM)フレームワークであるScene-VLMを提案する。
Scene-VLMは、フレーム、転写、オプションメタデータを含む視覚的およびテキスト的キューを共同で処理し、連続したショット間でマルチモーダル推論を可能にする。
このモデルはショット間の因果依存性を逐次予測し、ショットレベルの決定に十分な時間的コンテキストを確保するためのコンテキスト焦点ウィンドウ機構を導入する。
さらに,VLMのトークンレベルのロジットから信頼性スコアを抽出する手法を提案する。
さらに,本モデルでは,最小限の目標監督を通じて,境界決定に対する一貫性のある自然言語的論理式を生成することができることを示した。
提案手法は,標準的なシーンセグメンテーションベンチマーク上での最先端性能を実現する。
例えばMovieNetでは、Scene-VLMは以前のリード方式に比べて+6 APと+13.7 F1を大幅に改善した。
関連論文リスト
- Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features [10.21556794551883]
本稿では,エンド・ツー・エンドのトレーニングを回避できる,ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、高次元の特徴空間内の自己監督的時間的クラスタリングとしての映像理解である。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
論文 参考訳(メタデータ) (2025-10-19T10:13:34Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。
市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。
我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文 参考訳(メタデータ) (2025-06-12T15:23:11Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。