論文の概要: Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.04939v2
- Date: Wed, 15 Jan 2025 01:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:35.350176
- Title: Multi-Context Temporal Consistent Modeling for Referring Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーション参照のためのマルチコンテキスト時間一貫性モデリング
- Authors: Sun-Hyuk Choi, Hayoung Jo, Seong-Whan Lee,
- Abstract要約: ビデオオブジェクトのセグメンテーションの参照は、所定のテキスト記述に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。
既存の変換器に基づく時間的モデリング手法は、クエリの不整合とコンテキストの限定的考慮に関連する課題に直面している。
本稿では, Aligner と Multi-Context Enhancer で構成される Multi-context Temporal Consistency Module (MTCM) を提案する。
- 参考スコア(独自算出の注目度): 26.585985828583304
- License:
- Abstract: Referring video object segmentation aims to segment objects within a video corresponding to a given text description. Existing transformer-based temporal modeling approaches face challenges related to query inconsistency and the limited consideration of context. Query inconsistency produces unstable masks of different objects in the middle of the video. The limited consideration of context leads to the segmentation of incorrect objects by failing to adequately account for the relationship between the given text and instances. To address these issues, we propose the Multi-context Temporal Consistency Module (MTCM), which consists of an Aligner and a Multi-Context Enhancer (MCE). The Aligner removes noise from queries and aligns them to achieve query consistency. The MCE predicts text-relevant queries by considering multi-context. We applied MTCM to four different models, increasing performance across all of them, particularly achieving 47.6 J&F on the MeViS. Code is available at https://github.com/Choi58/MTCM.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションの参照は、所定のテキスト記述に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。
既存の変換器に基づく時間的モデリング手法は、クエリの不整合とコンテキストの限定的考慮に関連する課題に直面している。
クエリの不整合は、ビデオの途中で異なるオブジェクトの不安定なマスクを生成する。
コンテキストの限定的な考慮は、与えられたテキストとインスタンスの関係を適切に説明できないことによって、不正なオブジェクトのセグメンテーションにつながる。
これらの問題に対処するために,Aligner と Multi-Context Enhancer (MCE) から構成される Multi-context Temporal Consistency Module (MTCM) を提案する。
Alignerはクエリからノイズを取り除き、クエリ一貫性を達成するように調整する。
MCEはマルチコンテキストを考慮してテキスト関連クエリを予測する。
MTCMを4つの異なるモデルに適用し,特にMeViSで47.6 J&Fを達成した。
コードはhttps://github.com/Choi58/MTCMで入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - Video Moment Localization using Object Evidence and Reverse Captioning [1.1549572298362785]
未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。
本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。