論文の概要: Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation
- arxiv url: http://arxiv.org/abs/2602.21406v1
- Date: Tue, 24 Feb 2026 22:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.62605
- Title: Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation
- Title(参考訳): 開語彙ゼロショットアクションセグメンテーションのための視覚言語モデルの検討
- Authors: Asim Unmesh, Kaki Ramesh, Mayank Patel, Rahul Jain, Karthik Ramani,
- Abstract要約: 時間的アクションマトリックス(TAS)では、ビデオをアクションセグメントに分割する必要があるが、アクティビティの広大なスペースと代替的なブレークダウンによって、データセットの収集が不可能になる。
視覚言語モデル(VLM)の強力なゼロショット機能を活用することにより,オープンボキャブラリゼロショット時間行動(OVTAS)を提案する。
本研究は14種類のVLMを網羅した系統的研究であり,開語彙的行動セグメンテーションに適合する可能性を初めて明らかにした。
- 参考スコア(独自算出の注目度): 12.112297992589314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Segmentation (TAS) requires dividing videos into action segments, yet the vast space of activities and alternative breakdowns makes collecting comprehensive datasets infeasible. Existing methods remain limited to closed vocabularies and fixed label sets. In this work, we explore the largely unexplored problem of Open-Vocabulary Zero-Shot Temporal Action Segmentation (OVTAS) by leveraging the strong zero-shot capabilities of Vision-Language Models (VLMs). We introduce a training-free pipeline that follows a segmentation-by-classification design: Frame-Action Embedding Similarity (FAES) matches video frames to candidate action labels, and Similarity-Matrix Temporal Segmentation (SMTS) enforces temporal consistency. Beyond proposing OVTAS, we present a systematic study across 14 diverse VLMs, providing the first broad analysis of their suitability for open-vocabulary action segmentation. Experiments on standard benchmarks show that OVTAS achieves strong results without task-specific supervision, underscoring the potential of VLMs for structured temporal understanding.
- Abstract(参考訳): 時間的アクションセグメンテーション(TAS)では、ビデオをアクションセグメントに分割する必要があるが、アクティビティの広大なスペースと代替的なブレークダウンによって、包括的なデータセットの収集が不可能になる。
既存の方法はまだ閉語彙や固定ラベル集合に限られている。
本研究では,視覚言語モデル(VLM)の強力なゼロショット機能を活用することで,オープンボキャブラリのゼロショット動作セグメンテーション(OVTAS)のほとんど探索されていない問題を探索する。
フレーム-Action Embedding similarity (FAES) はビデオフレームと候補アクションラベルをマッチングし、Simisity-Matrix Temporal Segmentation (SMTS) は時間的一貫性を強制する。
OVTASの他にも、14の異なるVLMの体系的な研究があり、オープンボキャブラリアクションセグメンテーションへの適合性を初めて広く分析している。
標準ベンチマークの実験では、OVTASはタスク固有の監督なしに強力な結果が得られることが示され、構造化時間的理解のためのVLMの可能性が強調された。
関連論文リスト
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。