論文の概要: O-MaMa @ EgoExo4D Correspondence Challenge: Learning Object Mask Matching between Egocentric and Exocentric Views
- arxiv url: http://arxiv.org/abs/2506.06026v1
- Date: Fri, 06 Jun 2025 12:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.468159
- Title: O-MaMa @ EgoExo4D Correspondence Challenge: Learning Object Mask Matching between Egocentric and Exocentric Views
- Title(参考訳): O-MaMa @ EgoExo4D 対応チャレンジ:エゴセントリックな視点とエゴセントリックな視点のオブジェクトマスクマッチングを学習する
- Authors: Lorenzo Mur-Labadia, Maria Santos-Villafranca, Alejandro Perez-Yus, Jesus Bermudez-Cameo, Ruben Martinez-Cantin, Jose J. Guerrero,
- Abstract要約: 本報告では、マスクマッチングタスクとして扱うことにより、クロスイメージセグメンテーションを再定義する。
提案手法は,(1)高密度DINOv2セマンティックな特徴をプールし,FastSAMマスク候補から識別対象レベルの表現を得るマスクコンテキスト,(2)多視点観測を融合するEgo$leftarrow$Exoクロスアテンション,(3)共有潜在空間におけるクロスビュー特徴を整列するマスクマッチングコントラスト損失からなる。
- 参考スコア(独自算出の注目度): 41.98584849589569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the correspondence task is to segment specific objects across different views. This technical report re-defines cross-image segmentation by treating it as a mask matching task. Our method consists of: (1) A Mask-Context Encoder that pools dense DINOv2 semantic features to obtain discriminative object-level representations from FastSAM mask candidates, (2) an Ego$\leftrightarrow$Exo Cross-Attention that fuses multi-perspective observations, (3) a Mask Matching contrastive loss that aligns cross-view features in a shared latent space, and (4) a Hard Negative Adjacent Mining strategy to encourage the model to better differentiate between nearby objects.
- Abstract(参考訳): 対応タスクの目標は、異なるビューにまたがる特定のオブジェクトを分割することである。
この技術報告は、マスクマッチングタスクとして扱うことにより、クロスイメージセグメンテーションを再定義する。
提案手法は,(1)高密度DINOv2セマンティックな特徴をプールしてFastSAMマスク候補から識別対象レベルの表現を得るマスク・コンテキスト・エンコーダ,(2)マルチパースペクティブな観察を融合するEgo$\leftrightarrow$Exoクロス・アテンション,(3)共有潜在空間におけるクロスビューな特徴を整列するマスクマッチング,(4)モデルに近接するオブジェクトの識別をより促進するためのハード負の隣接マイニング戦略からなる。
関連論文リスト
- HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。
HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。
分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文 参考訳(メタデータ) (2025-03-17T10:29:08Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。
総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-08T20:07:18Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。