論文の概要: CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2601.12076v1
- Date: Sat, 17 Jan 2026 14:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.450207
- Title: CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation
- Title(参考訳): CroBIM-V: メモリ品質制御されたリモートセンシング参照ビデオオブジェクトセグメンテーション
- Authors: H. Jiang, Y. Sun, Z. Dong, T. Liu, Y. Gu,
- Abstract要約: 本稿では、データと方法論の二重貢献を通してRS-RVOSの研究を進める。
まず,111の動画シーケンス,約25,000のフレーム,213,000の時間参照アノテーションからなる最初の大規模ベンチマークであるRS-RVOS Benchを構築した。
第2に、セグメンテーションモデル(MQC-SAM)を用いたメモリ品質制御と呼ばれる、メモリ品質を考慮したオンライン参照セグメンテーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3099118620919279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing video referring object segmentation (RS-RVOS) is challenged by weak target saliency and severe visual information truncation in dynamic scenes, making it extremely difficult to maintain discriminative target representations during segmentation. Moreover, progress in this field is hindered by the absence of large-scale dedicated benchmarks, while existing models are often affected by biased initial memory construction that impairs accurate instance localization in complex scenarios, as well as indiscriminate memory accumulation that encodes noise from occlusions or misclassifications, leading to persistent error propagation. This paper advances RS-RVOS research through dual contributions in data and methodology. First, we construct RS-RVOS Bench, the first large-scale benchmark comprising 111 video sequences, about 25,000 frames, and 213,000 temporal referring annotations. Unlike common RVOS benchmarks where many expressions are written with access to the full video context, our dataset adopts a strict causality-aware annotation strategy in which linguistic references are generated solely from the target state in the initial frame. Second, we propose a memory-quality-aware online referring segmentation framework, termed Memory Quality Control with Segment Anything Model (MQC-SAM). MQC-SAM introduces a temporal motion consistency module for initial memory calibration, leveraging short-term motion trajectory priors to correct structural deviations and establish accurate memory anchoring. Furthermore, it incorporates a decoupled attention-based memory integration mechanism with dynamic quality assessment, selectively updating high-confidence semantic features while filtering unreliable information, thereby effectively preventing error accumulation and propagation. Extensive experiments on RS-RVOS Bench demonstrate that MQC-SAM achieves state-of-the-art performance.
- Abstract(参考訳): リモートセンシングビデオ参照オブジェクトセグメンテーション (RS-RVOS) は, 動的シーンにおいて, ターゲットサリエンシが弱く, 視覚情報トランケーションが激しいため, セグメンテーション中の識別対象表現の維持が極めて困難である。
さらに、この分野での進歩は、大規模な専用ベンチマークが欠如しているために妨げられているが、既存のモデルは、複雑なシナリオにおける正確なインスタンスローカライゼーションを損なうバイアス付き初期メモリ構造や、オクルージョンや誤分類からノイズを符号化する不特定メモリ蓄積の影響を受け、永続的なエラー伝播につながることが多い。
本稿では、データと方法論の二重貢献を通してRS-RVOSの研究を進める。
まず,111の動画シーケンス,約25,000のフレーム,213,000の時間参照アノテーションからなる最初の大規模ベンチマークであるRS-RVOS Benchを構築した。
一般的な RVOS ベンチマークでは、多くの表現がフルビデオコンテキストにアクセスして記述されるのに対し、我々のデータセットでは、言語参照が初期フレームのターゲット状態からのみ生成される厳密な因果アノテーション戦略を採用しています。
次に,セグメンテーションモデルを用いたメモリ品質制御(MQC-SAM)と呼ばれる,メモリ品質を考慮したオンライン参照セグメンテーションフレームワークを提案する。
MQC-SAMは、初期メモリキャリブレーションのための時間的動き整合モジュールを導入し、短期的な動き軌跡を利用して、構造的ずれを正しくし、正確なメモリアンカーを確立する。
さらに、分離された注目ベースのメモリ統合機構を動的品質評価に組み込み、信頼できない情報をフィルタリングしながら高信頼なセマンティック特徴を選択的に更新し、エラーの蓄積と伝播を効果的に防止する。
RS-RVOS Benchに関する大規模な実験は、MQC-SAMが最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection [21.22536962888316]
モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-04-30T02:19:31Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。