論文の概要: Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features
- arxiv url: http://arxiv.org/abs/2510.16781v1
- Date: Sun, 19 Oct 2025 10:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.141171
- Title: Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features
- Title(参考訳): Xiaoice: セマンティックな特徴の自己監督型時空間クラスタリングによる学習自由なビデオ理解
- Authors: Shihao Ji, Zihui Song,
- Abstract要約: 本稿では,エンド・ツー・エンドのトレーニングを回避できる,ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、高次元の特徴空間内の自己監督的時間的クラスタリングとしての映像理解である。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
- 参考スコア(独自算出の注目度): 10.21556794551883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable zero-shot reasoning capabilities of large-scale Visual Language Models (VLMs) on static images have yet to be fully translated to the video domain. Conventional video understanding models often rely on extensive, task-specific training on annotated datasets, a process that is both costly and limited in scalability. This paper introduces a novel, training-free framework for video understanding that circumvents end-to-end training by synergistically combining the rich semantic priors of pre-trained VLMs with classic machine learning algorithms for pattern discovery. Our core idea is to reframe video understanding as a self-supervised spatio-temporal clustering problem within a high-dimensional semantic feature space. The proposed pipeline first transforms a video stream into a semantic feature trajectory using the frozen visual encoder of a pre-trained VLM. Subsequently, we employ Kernel Temporal Segmentation (KTS), a robust machine learning technique, to partition the continuous feature stream into discrete, semantically coherent event segments. These segments are then subjected to unsupervised density-based clustering to identify recurring macroscopic scenes and themes throughout the video. By selecting representative keyframes from each discovered cluster and leveraging the VLM's generative capabilities for textual description, our framework automatically produces a structured, multi-modal summary of the video content. This approach provides an effective, interpretable, and model-agnostic pathway for zero-shot, automated structural analysis of video content.
- Abstract(参考訳): 静的画像上の大規模ビジュアル言語モデル(VLM)の驚くべきゼロショット推論機能はまだビデオ領域に完全に変換されていない。
従来のビデオ理解モデルは、コストとスケーラビリティの両面において制限された、注釈付きデータセットの広範なタスク固有のトレーニングに依存していることが多い。
本稿では、事前学習されたVLMの豊かなセマンティック先行と、パターン発見のための古典的な機械学習アルゴリズムを相乗的に組み合わせることで、エンドツーエンドのトレーニングを回避できる、ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、ビデオ理解を高次元のセマンティックな特徴空間内の自己教師付き時空間クラスタリング問題として再構成することである。
提案したパイプラインは、まず、予め訓練されたVLMの凍結された視覚エンコーダを用いて、ビデオストリームを意味的特徴軌跡に変換する。
続いて、堅牢な機械学習技術であるKernel Temporal Segmentation(KTS)を用いて、連続的な特徴ストリームを個別にセマンティックに一貫性のあるイベントセグメントに分割する。
これらのセグメントは、ビデオを通して繰り返されるマクロなシーンやテーマを特定するために、教師なしの密度に基づくクラスタリングを受ける。
検出された各クラスタから代表キーフレームを選択し,VLMの生成機能をテキスト記述に活用することにより,ビデオコンテンツの構造化されたマルチモーダル要約を自動生成する。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Multi-Level LVLM Guidance for Untrimmed Video Action Recognition [0.0]
本稿では,低レベルの視覚的特徴と高レベルの意味情報とのギャップを埋める新しいアーキテクチャであるイベント・テンポラライズド・ビデオ・トランスフォーマー(ECVT)を紹介する。
ActivityNet v1.3とTHUMOS14の実験では、ECVTは最先端のパフォーマンスを達成しており、平均mAPは40.5%、mAP@0.5は67.1%である。
論文 参考訳(メタデータ) (2025-08-24T16:45:21Z) - Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。