論文の概要: ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts
- arxiv url: http://arxiv.org/abs/2505.18561v1
- Date: Sat, 24 May 2025 07:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.508339
- Title: ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts
- Title(参考訳): ThinkVideo: 思考の連鎖による高画質ビデオセグメンテーション
- Authors: Shiu-hong Kao, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
- 参考スコア(独自算出の注目度): 64.93416171745693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Video Object Segmentation is a challenging task, which generates a mask sequence from an input video and an implicit, complex text query. Existing works probe into the problem by finetuning Multimodal Large Language Models (MLLM) for segmentation-based output, while still falling short in difficult cases on videos given temporally-sensitive queries, primarily due to the failure to integrate temporal and spatial information. In this paper, we propose ThinkVideo, a novel framework which leverages the zero-shot Chain-of-Thought (CoT) capability of MLLM to address these challenges. Specifically, ThinkVideo utilizes the CoT prompts to extract object selectivities associated with particular keyframes, then bridging the reasoning image segmentation model and SAM2 video processor to output mask sequences. The ThinkVideo framework is training-free and compatible with closed-source MLLMs, which can be applied to Reasoning Video Instance Segmentation. We further extend the framework for online video streams, where the CoT is used to update the object of interest when a better target starts to emerge and becomes visible. We conduct extensive experiments on video object segmentation with explicit and implicit queries. The results show that ThinkVideo significantly outperforms previous works in both cases, qualitatively and quantitatively.
- Abstract(参考訳): ビデオオブジェクトセグメンテーションの推論は、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する、難しいタスクである。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することで問題を調査するが、時間的・空間的な情報の統合に失敗したために、時間的感応的なクエリが与えられたビデオでは依然として不十分である。
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用した新しいフレームワークであるThinkVideoを提案する。
具体的には、ThinkVideoはCoTプロンプトを使用して、特定のキーフレームに関連するオブジェクト選択を抽出し、推論画像セグメンテーションモデルとSAM2ビデオプロセッサをブリッジしてマスクシーケンスを出力する。
ThinkVideoフレームワークはトレーニングフリーで、クローズドソースのMLLMと互換性があり、Reasoning Video Instance Segmentationに適用できる。
オンラインビデオストリームのフレームワークをさらに拡張し、より優れたターゲットが出現し、目に見えるようになると、CoTが関心の対象を更新するために使用されます。
我々は、明示的および暗黙的なクエリによるビデオオブジェクトのセグメンテーションに関する広範な実験を行う。
その結果、ThinkVideoは、質的にも定量的にも、過去の作品よりも大幅に優れていたことが判明した。
関連論文リスト
- One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。