論文の概要: SOI is the Root of All Evil: Quantifying and Breaking Similar Object Interference in Single Object Tracking
- arxiv url: http://arxiv.org/abs/2508.09524v2
- Date: Thu, 14 Aug 2025 07:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.663454
- Title: SOI is the Root of All Evil: Quantifying and Breaking Similar Object Interference in Single Object Tracking
- Title(参考訳): SOIは全悪の根である:単一物体追跡における類似物体干渉の定量化と破壊
- Authors: Yipei Wang, Shiyu Hu, Shukun Jia, Panxi Xu, Hongfei Ma, Yiping Ma, Jing Zhang, Xiaobo Lu, Xin Zhao,
- Abstract要約: 類似オブジェクト干渉(SOI)の最初の体系的研究と定量化について述べる。
干渉源の除去は、全てのSOTAトラッカーで大幅な性能改善(AUCは4.35まで向上)をもたらす。
SOIBenchは,SOI課題を対象とする最初の意味認知指導ベンチマークである。
- 参考スコア(独自算出の注目度): 25.076012214989433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the first systematic investigation and quantification of Similar Object Interference (SOI), a long-overlooked yet critical bottleneck in Single Object Tracking (SOT). Through controlled Online Interference Masking (OIM) experiments, we quantitatively demonstrate that eliminating interference sources leads to substantial performance improvements (AUC gains up to 4.35) across all SOTA trackers, directly validating SOI as a primary constraint for robust tracking and highlighting the feasibility of external cognitive guidance. Building upon these insights, we adopt natural language as a practical form of external guidance, and construct SOIBench-the first semantic cognitive guidance benchmark specifically targeting SOI challenges. It automatically mines SOI frames through multi-tracker collective judgment and introduces a multi-level annotation protocol to generate precise semantic guidance texts. Systematic evaluation on SOIBench reveals a striking finding: existing vision-language tracking (VLT) methods fail to effectively exploit semantic cognitive guidance, achieving only marginal improvements or even performance degradation (AUC changes of -0.26 to +0.71). In contrast, we propose a novel paradigm employing large-scale vision-language models (VLM) as external cognitive engines that can be seamlessly integrated into arbitrary RGB trackers. This approach demonstrates substantial improvements under semantic cognitive guidance (AUC gains up to 0.93), representing a significant advancement over existing VLT methods. We hope SOIBench will serve as a standardized evaluation platform to advance semantic cognitive tracking research and contribute new insights to the tracking research community.
- Abstract(参考訳): 本稿では,Single Object Tracking (SOT) における長年見過ごされてきた重要なボトルネックである,Simisal Object Interference (SOI) の体系的調査と定量化について述べる。
制御されたオンライン干渉マスキング(OIM)実験を通じて、干渉源の除去が全てのSOTAトラッカーに対して大幅な性能改善(AUCは最大4.35まで向上)をもたらすことを定量的に証明し、SOIを頑健な追跡のための第一の制約として直接検証し、外部認知指導の可能性を強調した。
これらの知見に基づいて、我々は、自然言語を外部ガイダンスの実践的な形式として採用し、SOIBenchをSOI課題に特化した最初の意味認知ガイダンスベンチマークとして構築する。
マルチトラッカーの集合判断によって自動的にSOIフレームをマイニングし、正確なセマンティックガイダンステキストを生成するためのマルチレベルアノテーションプロトコルを導入する。
既存の視覚言語追跡(VLT)手法は、意味的認知指導を効果的に活用できず、限界的な改善やパフォーマンス劣化(AUCでは-0.26から+0.71に変更)を達成できない。
対照的に、我々は、任意のRGBトラッカーにシームレスに統合可能な外部認知エンジンとして、大規模視覚言語モデル(VLM)を用いた新しいパラダイムを提案する。
このアプローチは、意味認知指導(AUCは最大0.93まで向上)の下で大幅に改善され、既存のVLT法よりも大幅に進歩したことを示す。
SOIBenchは、セマンティック認知追跡研究を推進し、追跡研究コミュニティに新たな洞察をもたらすための、標準化された評価プラットフォームとして機能することを願っている。
関連論文リスト
- DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。