論文の概要: Cross-View Completion Models are Zero-shot Correspondence Estimators
- arxiv url: http://arxiv.org/abs/2412.09072v1
- Date: Thu, 12 Dec 2024 08:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:36.888188
- Title: Cross-View Completion Models are Zero-shot Correspondence Estimators
- Title(参考訳): ゼロショット対応推定器を用いたクロスビュー補完モデル
- Authors: Honggyu An, Jinhyeon Kim, Seonghoon Park, Jaewoo Jung, Jisang Han, Sunghwan Hong, Seungryong Kim,
- Abstract要約: クロスビューコンプリートモデル内のクロスアテンションマップは、エンコーダやデコーダの特徴から導かれる他の相関関係よりも、より効率的に対応をキャプチャすることを示した。
ゼロショットマッチングと学習ベース幾何マッチングと多フレーム深度推定の両方を用いて,クロスアテンションマップの有効性を検証する。
- 参考スコア(独自算出の注目度): 32.656925289717805
- License:
- Abstract: In this work, we explore new perspectives on cross-view completion learning by drawing an analogy to self-supervised correspondence learning. Through our analysis, we demonstrate that the cross-attention map within cross-view completion models captures correspondence more effectively than other correlations derived from encoder or decoder features. We verify the effectiveness of the cross-attention map by evaluating on both zero-shot matching and learning-based geometric matching and multi-frame depth estimation. Project page is available at https://cvlab-kaist.github.io/ZeroCo/.
- Abstract(参考訳): そこで本研究では,自己教師型対応学習に類推して,クロスビュー・コンプリート学習の新たな視点を探求する。
解析により、クロスビュー補完モデル内のクロスアテンションマップは、エンコーダやデコーダの特徴から導かれる他の相関関係よりも、より効率的に対応をキャプチャすることを示した。
ゼロショットマッチングと学習ベース幾何マッチングと多フレーム深度推定の両方を用いて,クロスアテンションマップの有効性を検証する。
プロジェクトページはhttps://cvlab-kaist.github.io/ZeroCo/.comで公開されている。
関連論文リスト
- Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - A Closer Look at Few-shot Classification Again [68.44963578735877]
トレーニングフェーズと適応フェーズで構成されている。
トレーニングアルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明する。
各フェーズのメタアナリシスは、いくつかの興味深い洞察を示し、いくつかのショット分類の重要な側面をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-01-28T16:42:05Z) - 3D Human Action Representation Learning via Cross-View Consistency
Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。
CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文 参考訳(メタデータ) (2021-04-29T16:29:41Z) - Feature Learning for Accelerometer based Gait Recognition [0.0]
オートエンコーダは、特徴学習能力に関して、差別的なエンドツーエンドモデルに非常に近い。
完全な畳み込みモデルは 訓練戦略に関係なく 優れた特徴表現を学べます
論文 参考訳(メタデータ) (2020-07-31T10:58:01Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。