論文の概要: Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
- arxiv url: http://arxiv.org/abs/2507.16718v1
- Date: Tue, 22 Jul 2025 15:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.195879
- Title: Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
- Title(参考訳): 時間制約付きビデオ推論セグメンテーションと自動ベンチマーク構築
- Authors: Yiqing Shen, Chenjia Li, Chenxiao Fan, Mathias Unberath,
- Abstract要約: 本稿では,対象対象物が文脈的関連性を持つ場合に暗黙的に推論することを必要とする新しいタスクの定式化である,時間制約付きビデオ推論セグメンテーションを導入する。
また、MVORデータセットからの映像を用いた52のサンプルを含む時間制約付きビデオRSデータセットであるTCVideoRSを提案する。
- 参考スコア(独自算出の注目度): 8.214041057237491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional approaches to video segmentation are confined to predefined object categories and cannot identify out-of-vocabulary objects, let alone objects that are not identified explicitly but only referred to implicitly in complex text queries. This shortcoming limits the utility for video segmentation in complex and variable scenarios, where a closed set of object categories is difficult to define and where users may not know the exact object category that will appear in the video. Such scenarios can arise in operating room video analysis, where different health systems may use different workflows and instrumentation, requiring flexible solutions for video analysis. Reasoning segmentation (RS) now offers promise towards such a solution, enabling natural language text queries as interaction for identifying object to segment. However, existing video RS formulation assume that target objects remain contextually relevant throughout entire video sequences. This assumption is inadequate for real-world scenarios in which objects of interest appear, disappear or change relevance dynamically based on temporal context, such as surgical instruments that become relevant only during specific procedural phases or anatomical structures that gain importance at particular moments during surgery. Our first contribution is the introduction of temporally-constrained video reasoning segmentation, a novel task formulation that requires models to implicitly infer when target objects become contextually relevant based on text queries that incorporate temporal reasoning. Since manual annotation of temporally-constrained video RS datasets would be expensive and limit scalability, our second contribution is an innovative automated benchmark construction method. Finally, we present TCVideoRSBenchmark, a temporally-constrained video RS dataset containing 52 samples using the videos from the MVOR dataset.
- Abstract(参考訳): ビデオセグメンテーションに対する従来のアプローチは、定義済みのオブジェクトカテゴリに限られており、語彙外オブジェクトを特定できない。
この欠点は、複雑で可変なシナリオにおけるビデオセグメンテーションの実用性を制限するもので、オブジェクトカテゴリのクローズドなセットを定義するのが難しく、ユーザがビデオに現れる正確なオブジェクトカテゴリを知ることができない。
このようなシナリオは、さまざまなヘルスシステムが異なるワークフローと機器を使用して、ビデオ分析に柔軟なソリューションを必要とする、手術室のビデオ分析で起こりうる。
推論セグメンテーション(RS)はそのようなソリューションへの約束を提供し、オブジェクトをセグメンテーションする相互作用として自然言語のテキストクエリを可能にする。
しかし、既存のビデオRSの定式化は、対象のオブジェクトがビデオシーケンス全体を通してコンテキスト的に関連していると仮定する。
この仮定は、特定の手続き段階にのみ関係する手術器具や、手術中の特定の瞬間に重要となる解剖学的構造など、時間的文脈に基づいて、関心の対象が出現、消失、あるいは動的に関連性を変化させる現実世界のシナリオでは不十分である。
最初のコントリビューションは、時間的制約のあるビデオ推論セグメンテーションの導入である。これは、時間的推論を組み込んだテキストクエリに基づいて、対象オブジェクトがコンテキスト的に関連づけられたときに暗黙的に推論することを要求する、新しいタスク定式化である。
時間制約付きビデオRSデータセットのマニュアルアノテーションは高価でスケーラビリティが制限されるため、2つ目のコントリビューションは、革新的な自動ベンチマーク構築方法である。
最後に、MVORデータセットの映像を用いた52のサンプルを含む時間制約付きビデオRSデータセットであるTCVideoRSBenchmarkを提案する。
関連論文リスト
- ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。