Fugu-MT 論文翻訳(概要): Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

論文の概要: Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

arxiv url: http://arxiv.org/abs/2602.18996v1
Date: Sun, 22 Feb 2026 00:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.434236
Title: Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction
Title（参考訳）: サイクル一貫性マスク予測によるクロスビューオブジェクト対応学習
Authors: Shannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao,
Abstract要約: 本研究では,ビデオにおける視点の異なるオブジェクトレベルの視覚的対応を確立するタスクについて検討し,エゴセントリックからエゴセントリックへ,エゴセントリックからエゴセントリックへという挑戦的なシナリオに着目した。条件付きバイナリセグメンテーションに基づいて,オブジェクトクエリマスクを潜在表現に符号化し,対象ビデオ中の対応するオブジェクトのローカライゼーションを誘導する,シンプルで効果的なフレームワークを提案する。 Ego-Exo4D と HANDAL-X のベンチマーク実験により,最適化目標とTTT 戦略の有効性を実証し,最先端性能を実現した。
参考スコア（独自算出の注目度）: 47.01100029571904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.
Abstract（参考訳）: 本研究では,ビデオにおける視点の異なるオブジェクトレベルの視覚的対応を確立するタスクについて検討し,エゴセントリックからエゴセントリックへ,エゴセントリックからエゴセントリックへという挑戦的なシナリオに着目した。条件付きバイナリセグメンテーションに基づいて,オブジェクトクエリマスクを潜在表現に符号化し,対象ビデオ中の対応するオブジェクトのローカライゼーションを誘導する,シンプルで効果的なフレームワークを提案する。頑健でビュー不変な表現を促進するために,ターゲットビューの予測マスクをソースビューに投影し,元のクエリマスクを再構築するサイクル一貫性トレーニングの目標を導入する。この双方向制約は、地味なアノテーションを必要とせずに強力な自己監督信号を提供し、推論時のテストタイムトレーニング(TTT)を可能にする。 Ego-Exo4D と HANDAL-X のベンチマーク実験により,最適化目標とTTT 戦略の有効性を実証し,最先端性能を実現した。コードはhttps://github.com/shannany0606/CCMPで入手できる。

関連論文リスト

Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection [18.382178646073474]
RISEは、トレーニングデータセット全体を利用して、単一画像のための擬似ラベルを生成するパラダイムである。アノテーションを使わずにトレーニング画像のみを使用することは、高品質なプロトタイプライブラリ構築において顕著な課題である、と認識することが重要である。 KNN検索の段階では,特徴マップにおけるアーティファクトの影響を軽減するために,マルチビューKNN検索を提案する。
論文参考訳（メタデータ） (2025-10-21T09:12:26Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文参考訳（メタデータ） (2024-11-28T12:01:03Z)
Self-Supervised Learning for Visual Relationship Detection through Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。 Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文参考訳（メタデータ） (2023-11-08T16:59:26Z)
Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文参考訳（メタデータ） (2023-09-23T04:12:02Z)
Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文参考訳（メタデータ） (2023-08-04T06:50:52Z)
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。 MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-25T17:59:58Z)
Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。 4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文参考訳（メタデータ） (2022-05-28T05:13:45Z)
Self-Supervised Visual Representations Learning by Contrastive Mask Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。 MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文参考訳（メタデータ） (2021-08-18T02:50:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。