Fugu-MT 論文翻訳(概要): Learning Spatial-Semantic Features for Robust Video Object Segmentation

論文の概要: Learning Spatial-Semantic Features for Robust Video Object Segmentation

arxiv url: http://arxiv.org/abs/2407.07760v1
Date: Wed, 10 Jul 2024 15:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 16:02:46.534207
Title: Learning Spatial-Semantic Features for Robust Video Object Segmentation
Title（参考訳）: ロバストビデオオブジェクトセグメンテーションのための空間意味的特徴の学習
Authors: Xin Li, Deshui Miao, Zhenyu He, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang,
Abstract要約: 空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
参考スコア（独自算出の注目度）: 108.045326229865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tracking and segmenting multiple similar objects with complex or separate parts in long-term videos is inherently challenging due to the ambiguity of target parts and identity confusion caused by occlusion, background clutter, and long-term variations. In this paper, we propose a robust video object segmentation framework equipped with spatial-semantic features and discriminative object queries to address the above issues. Specifically, we construct a spatial-semantic network comprising a semantic embedding block and spatial dependencies modeling block to associate the pretrained ViT features with global semantic features and local spatial features, providing a comprehensive target representation. In addition, we develop a masked cross-attention module to generate object queries that focus on the most discriminative parts of target objects during query propagation, alleviating noise accumulation and ensuring effective long-term query propagation. The experimental results show that the proposed method set a new state-of-the-art performance on multiple datasets, including the DAVIS2017 test (89.1%), YoutubeVOS 2019 (88.5%), MOSE (75.1%), LVOS test (73.0%), and LVOS val (75.1%), which demonstrate the effectiveness and generalization capacity of the proposed method. We will make all source code and trained models publicly available.
Abstract（参考訳）: 対象の部位のあいまいさや、オクルージョン、背景のぼやけ、長期の変動によって引き起こされるアイデンティティの混乱により、複数の類似したオブジェクトを、長期ビデオで複雑または別々に追跡し、セグメンテーションすることは本質的に困難である。本稿では,このような問題に対処するために,空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。具体的には,意味的埋め込みブロックと空間依存モデリングブロックからなる空間意味ネットワークを構築し,事前学習したViT特徴とグローバルな意味的特徴と局所的な空間的特徴とを関連づけ,包括的対象表現を提供する。さらに,問合せ伝搬中の対象オブジェクトの最も識別性の高い部分に着目し,雑音の蓄積を緩和し,効果的な長期的問合せ伝搬を保証するための,マスク付きクロスアテンションモジュールを開発した。実験の結果、提案手法は、DAVIS2017テスト(89.1%)、YoutubeVOS 2019(88.5%)、MOSE(75.1%)、LVOSテスト(73.0%)、LVOS val(75.1%)を含む複数のデータセットに新たな最先端性能を設定し、提案手法の有効性と一般化能力を示した。すべてのソースコードとトレーニング済みのモデルを公開します。

関連論文リスト

Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors [0.0]
そこで本研究では,クラス内のより大規模で意味的にリッチなインスタンスから,小さなオブジェクト表現を識別的特徴の「バラバラ化」を可能にする新しいフレームワークを提案する。本手法は, 複雑な視覚環境下でのロバストな物体検出に有望な方向を提供するため, ベースライン法よりも小さな物体検出精度を著しく向上させる。
論文参考訳（メタデータ） (2025-04-30T01:18:33Z)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-26T06:34:48Z)
Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。本報告では,空間時空間VOSモデルについて述べる。
論文参考訳（メタデータ） (2024-08-29T10:47:17Z)
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文参考訳（メタデータ） (2024-08-29T07:32:01Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文参考訳（メタデータ） (2023-09-01T03:34:12Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文参考訳（メタデータ） (2022-12-22T17:59:48Z)
Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。このような混乱を抑制するための3つの新しい戦略を提案する。我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文参考訳（メタデータ） (2022-07-14T14:25:19Z)
Addressing Multiple Salient Object Detection via Dual-Space Long-Range Dependencies [3.8824028205733017]
正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。複雑なシナリオであっても,本手法は複数の有能な領域を正確に特定できることを示す。
論文参考訳（メタデータ） (2021-11-04T23:16:53Z)
Sparse Spatial Attention Network for Semantic Segmentation [11.746833714322156]
空間的注意機構は、各クエリロケーションにグローバルなコンテキスト情報を集約することで、長距離依存関係をキャプチャする。性能を犠牲にすることなく,空間アテンション機構の効率を向上させるために,スパース空間アテンションネットワーク(SSANet)を提案する。
論文参考訳（メタデータ） (2021-09-04T18:41:05Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。