論文の概要: Mitigating Query Selection Bias in Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2509.13722v1
- Date: Wed, 17 Sep 2025 06:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.735372
- Title: Mitigating Query Selection Bias in Referring Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションの参照におけるクエリ選択バイアスの緩和
- Authors: Dingwei Zhang, Dong Zhang, Jinhui Tang,
- Abstract要約: 本稿では,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
- 参考スコア(独自算出の注目度): 39.39279952650532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, query-based methods have achieved remarkable performance in Referring Video Object Segmentation (RVOS) by using textual static object queries to drive cross-modal alignment. However, these static queries are easily misled by distractors with similar appearance or motion, resulting in \emph{query selection bias}. To address this issue, we propose Triple Query Former (TQF), which factorizes the referring query into three specialized components: an appearance query for static attributes, an intra-frame interaction query for spatial relations, and an inter-frame motion query for temporal association. Instead of relying solely on textual embeddings, our queries are dynamically constructed by integrating both linguistic cues and visual guidance. Furthermore, we introduce two motion-aware aggregation modules that enhance object token representations: Intra-frame Interaction Aggregation incorporates position-aware interactions among objects within a single frame, while Inter-frame Motion Aggregation leverages trajectory-guided alignment across frames to ensure temporal coherence. Extensive experiments on multiple RVOS benchmarks demonstrate the advantages of TQF and the effectiveness of our structured query design and motion-aware aggregation modules.
- Abstract(参考訳): 近年,ビデオオブジェクトセグメンテーション(RVOS)の参照において,テキスト静的なオブジェクトクエリを用いてクロスモーダルアライメントを駆動することで,クエリベースの手法が顕著なパフォーマンスを実現している。
しかし、これらの静的クエリは、外観や動きに類似した邪魔者によって容易に誤解され、結果として \emph{query selection bias} となる。
この問題に対処するために,静的属性の出現クエリ,空間関係のフレーム内インタラクションクエリ,時間的関連のためのフレーム間モーションクエリという,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
フレーム間相互作用 Aggregation は1フレーム内のオブジェクト間の位置認識相互作用を包含する一方、フレーム間移動 Aggregation はフレーム間の軌道誘導アライメントを活用して時間的コヒーレンスを確保する。
複数のRVOSベンチマークの大規模な実験は、TQFの利点と構造化クエリ設計とモーションアウェアアグリゲーションモジュールの有効性を実証している。
関連論文リスト
- Object-Centric Framework for Video Moment Retrieval [15.916994168542345]
既存のモーメント検索手法の多くは、主にグローバルな視覚情報と意味情報をエンコードするフレームレベルの特徴の時間的シーケンスに依存している。
特に、オブジェクトレベルの時間的ダイナミクスは、主に見過ごされ、オブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチを制限する。
提案手法は,まずシーングラフを用いてクエリ関連オブジェクトを抽出し,次にビデオフレームからグラフを抽出して,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報や意味情報をエンコードするオブジェクトレベルの特徴系列を構築し、時間とともにオブジェクト間の関係時間的ローカライゼーションをモデル化するビデオトラックレット変換器で処理する。
論文 参考訳(メタデータ) (2025-12-20T17:44:53Z) - Referring Video Object Segmentation with Cross-Modality Proxy Queries [23.504655272754587]
Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:45:41Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。