論文の概要: Mitigating Query Selection Bias in Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2509.13722v1
- Date: Wed, 17 Sep 2025 06:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.735372
- Title: Mitigating Query Selection Bias in Referring Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションの参照におけるクエリ選択バイアスの緩和
- Authors: Dingwei Zhang, Dong Zhang, Jinhui Tang,
- Abstract要約: 本稿では,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
- 参考スコア(独自算出の注目度): 39.39279952650532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, query-based methods have achieved remarkable performance in Referring Video Object Segmentation (RVOS) by using textual static object queries to drive cross-modal alignment. However, these static queries are easily misled by distractors with similar appearance or motion, resulting in \emph{query selection bias}. To address this issue, we propose Triple Query Former (TQF), which factorizes the referring query into three specialized components: an appearance query for static attributes, an intra-frame interaction query for spatial relations, and an inter-frame motion query for temporal association. Instead of relying solely on textual embeddings, our queries are dynamically constructed by integrating both linguistic cues and visual guidance. Furthermore, we introduce two motion-aware aggregation modules that enhance object token representations: Intra-frame Interaction Aggregation incorporates position-aware interactions among objects within a single frame, while Inter-frame Motion Aggregation leverages trajectory-guided alignment across frames to ensure temporal coherence. Extensive experiments on multiple RVOS benchmarks demonstrate the advantages of TQF and the effectiveness of our structured query design and motion-aware aggregation modules.
- Abstract(参考訳): 近年,ビデオオブジェクトセグメンテーション(RVOS)の参照において,テキスト静的なオブジェクトクエリを用いてクロスモーダルアライメントを駆動することで,クエリベースの手法が顕著なパフォーマンスを実現している。
しかし、これらの静的クエリは、外観や動きに類似した邪魔者によって容易に誤解され、結果として \emph{query selection bias} となる。
この問題に対処するために,静的属性の出現クエリ,空間関係のフレーム内インタラクションクエリ,時間的関連のためのフレーム間モーションクエリという,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
フレーム間相互作用 Aggregation は1フレーム内のオブジェクト間の位置認識相互作用を包含する一方、フレーム間移動 Aggregation はフレーム間の軌道誘導アライメントを活用して時間的コヒーレンスを確保する。
複数のRVOSベンチマークの大規模な実験は、TQFの利点と構造化クエリ設計とモーションアウェアアグリゲーションモジュールの有効性を実証している。
関連論文リスト
- Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。