論文の概要: Self-Supervised Spatial Correspondence Across Modalities
- arxiv url: http://arxiv.org/abs/2506.03148v1
- Date: Tue, 03 Jun 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.994172
- Title: Self-Supervised Spatial Correspondence Across Modalities
- Title(参考訳): モーダリティにおける自己監督型空間対応
- Authors: Ayush Shrivastava, Andrew Owens,
- Abstract要約: 本稿では,モーダルな時空間対応を見つける方法を提案する。
RGB画像と深度マップのような2つの画像が与えられた場合、このモデルでは、どのピクセルがシーン内の同じ物理点に対応するかを特定する。
- 参考スコア(独自算出の注目度): 17.50529887238381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for finding cross-modal space-time correspondences. Given two images from different visual modalities, such as an RGB image and a depth map, our model identifies which pairs of pixels correspond to the same physical points in the scene. To solve this problem, we extend the contrastive random walk framework to simultaneously learn cycle-consistent feature representations for both cross-modal and intra-modal matching. The resulting model is simple and has no explicit photo-consistency assumptions. It can be trained entirely using unlabeled data, without the need for any spatially aligned multimodal image pairs. We evaluate our method on both geometric and semantic correspondence tasks. For geometric matching, we consider challenging tasks such as RGB-to-depth and RGB-to-thermal matching (and vice versa); for semantic matching, we evaluate on photo-sketch and cross-style image alignment. Our method achieves strong performance across all benchmarks.
- Abstract(参考訳): 本稿では,モーダルな時空間対応を見つける方法を提案する。
RGB画像や深度マップのような異なる視覚的モダリティの2つの画像が与えられた場合、このモデルでは、どのピクセルがシーン内の同じ物理点に対応するかを特定する。
この問題を解決するために、我々はコントラッシブなランダムウォークフレームワークを拡張し、クロスモーダルとイントラモーダルのマッチングのためのサイクル一貫性のある特徴表現を同時に学習する。
結果として得られるモデルは単純で、明示的なフォト一貫性の仮定を持たない。
空間的に整列されたマルチモーダル画像ペアを必要とせずに、ラベルのないデータで完全にトレーニングすることができる。
我々は幾何学的・意味的対応タスクについて評価する。
幾何マッチングでは、RGB-to-deepthやRGB-to-thermal matching(およびその逆)といった課題を考慮し、セマンティックマッチングでは、フォトスケッチとクロススタイルの画像アライメントを評価する。
本手法は,全てのベンチマークにおいて高い性能を実現する。
関連論文リスト
- Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T03:21:55Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - A Geometrically Constrained Point Matching based on View-invariant
Cross-ratios, and Homography [2.050924050557755]
ビュー不変クロス比(CR)に基づく初期一致SIFTキーポイントの正当性検証のための幾何学的制約付きアルゴリズムを提案する。
これらのキーポイントからペンタゴンをランダムに形成し、画像間の形状と位置をCRとマッチングすることにより、堅牢な平面領域推定を効率的に行うことができる。
実験結果から,複数平面領域の複数シーンで良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-11-06T01:55:35Z) - RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation [49.28588927121722]
ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
室内環境における13の異なるシーンをフレーミングする新しいRGB-MSデータセットを導入し,34枚の画像対に半高解像度の高解像度の地上トラスラベルを付加したアノテートを行った。
そこで本研究では,RGBカメラを活用した自己指導型ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:59:59Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Extreme Rotation Estimation using Dense Correlation Volumes [73.35119461422153]
本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。
画像が重なり合わなくても、それらの幾何学的関係に関して豊富な隠れた手がかりがあるかもしれないと観察する。
本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。
論文 参考訳(メタデータ) (2021-04-28T02:00:04Z) - A Similarity Inference Metric for RGB-Infrared Cross-Modality Person
Re-identification [66.49212581685127]
IRとRGBの相違が大きいため、モダリティの人物再識別(re-ID)は難しい課題である。
既存のメソッドはこの課題に対処するため、典型的には、特徴分布やイメージスタイルをモダリティ間で整列させることで対処する。
本稿では,モダリティ内サンプルの類似性を利用して,モダリティ間の相違を回避する新しい類似度推定指標(SIM)を提案する。
論文 参考訳(メタデータ) (2020-07-03T05:28:13Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。