論文の概要: Referring Video Object Segmentation with Cross-Modality Proxy Queries
- arxiv url: http://arxiv.org/abs/2511.21139v1
- Date: Wed, 26 Nov 2025 07:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.01453
- Title: Referring Video Object Segmentation with Cross-Modality Proxy Queries
- Title(参考訳): クロスモダリティプロキシクエリによるビデオオブジェクトセグメンテーションの参照
- Authors: Baoli Sun, Xinzhu Ma, Ning Wang, Zhihui Wang, Zhiyong Wang,
- Abstract要約: Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 23.504655272754587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) is an emerging cross-modality task that aims to generate pixel-level maps of the target objects referred by given textual expressions. The main concept involves learning an accurate alignment of visual elements and language expressions within a semantic space. Recent approaches address cross-modality alignment through conditional queries, tracking the target object using a query-response based mechanism built upon transformer structure. However, they exhibit two limitations: (1) these conditional queries lack inter-frame dependency and variation modeling, making accurate target tracking challenging amid significant frame-to-frame variations; and (2) they integrate textual constraints belatedly, which may cause the video features potentially focus on the non-referred objects. Therefore, we propose a novel RVOS architecture called ProxyFormer, which introduces a set of proxy queries to integrate visual and text semantics and facilitate the flow of semantics between them. By progressively updating and propagating proxy queries across multiple stages of video feature encoder, ProxyFormer ensures that the video features are focused on the object of interest. This dynamic evolution also enables the establishment of inter-frame dependencies, enhancing the accuracy and coherence of object tracking. To mitigate high computational costs, we decouple cross-modality interactions into temporal and spatial dimensions. Additionally, we design a Joint Semantic Consistency (JSC) training strategy to align semantic consensus between the proxy queries and the combined video-text pairs. Comprehensive experiments on four widely used RVOS benchmarks demonstrate the superiority of our ProxyFormer to the state-of-the-art methods.
- Abstract(参考訳): Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
主な概念は、意味空間内で視覚要素と言語表現の正確なアライメントを学ぶことである。
近年のアプローチでは、コンディショナルクエリによる相互モーダルアライメントに対処し、トランスフォーマ構造上に構築されたクエリ応答に基づくメカニズムを用いてターゲットオブジェクトを追跡する。
しかし,これらの条件付きクエリにはフレーム間の依存性や変動のモデル化が欠如しており,フレーム間の大きな変動の中で正確な目標追跡が困難になる。
そこで我々はProxyFormerという新しいRVOSアーキテクチャを提案し、視覚とテキストのセマンティクスを統合し、それら間のセマンティクスのフローを容易にするためのプロキシクエリセットを提案する。
ProxyFormerは、ビデオ機能エンコーダの複数のステージにわたるプロキシクエリの段階的な更新と伝搬によって、ビデオ機能が関心の対象に集中していることを保証する。
この動的進化により、フレーム間の依存関係の確立が可能になり、オブジェクト追跡の正確性と一貫性が向上する。
高い計算コストを軽減するため、モーダリティ間の相互作用を時間次元と空間次元に分離する。
さらに、プロキシクエリと合成ビデオテキストペア間のセマンティックコンセンサスを整合させるために、JSC(Joint Semantic Consistency)トレーニング戦略を設計する。
4つの広く使用されているRVOSベンチマークに関する総合的な実験は、最先端の手法に対するProxyFormerの優位性を実証している。
関連論文リスト
- Mitigating Query Selection Bias in Referring Video Object Segmentation [39.39279952650532]
本稿では,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
論文 参考訳(メタデータ) (2025-09-17T06:17:23Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - InterRVOS: Interaction-aware Referring Video Object Segmentation [44.55538737075162]
インタラクションのモデリングに焦点をあてた新しいタスクであるInterRVOS(Interaction-Aware Referring Video Object)を紹介する。
モデルはアクターとターゲットオブジェクトを別々に分割し、相互作用におけるそれらの非対称的な役割を反映する必要がある。
本稿では,127K以上のアノテート表現を持つ大規模データセットであるInterRVOS-127Kについて述べる。
論文 参考訳(メタデータ) (2025-06-03T01:16:13Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。