Fugu-MT 論文翻訳(概要): Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence

論文の概要: Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence

arxiv url: http://arxiv.org/abs/2311.17034v1
Date: Tue, 28 Nov 2023 18:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 17:16:29.162091
Title: Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence
Title（参考訳）: 右から左へ:幾何学的意味的対応の特定
Authors: Junyi Zhang, Charles Herrmann, Junhwa Hur, Eric Chen, Varun Jampani, Deqing Sun, Ming-Hsuan Yang
Abstract要約: 本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。この情報を活用することで,意味的対応性能が著しく向上することを示す。我々は既存の動物ポーズ推定データセットから構築された意味対応のための新しいベンチマークを構築した。
参考スコア（独自算出の注目度）: 84.72996365404228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While pre-trained large-scale vision models have shown significant promise for semantic correspondence, their features often struggle to grasp the geometry and orientation of instances. This paper identifies the importance of being geometry-aware for semantic correspondence and reveals a limitation of the features of current foundation models under simple post-processing. We show that incorporating this information can markedly enhance semantic correspondence performance with simple but effective solutions in both zero-shot and supervised settings. We also construct a new challenging benchmark for semantic correspondence built from an existing animal pose estimation dataset, for both pre-training validating models. Our method achieves a PCK@0.10 score of 64.2 (zero-shot) and 85.6 (supervised) on the challenging SPair-71k dataset, outperforming the state-of-the-art by 4.3p and 11.0p absolute gains, respectively. Our code and datasets will be publicly available.
Abstract（参考訳）: 事前訓練された大規模ビジョンモデルは意味的対応に有意な期待を示してきたが、それらの特徴はしばしばインスタンスの形状と向きを理解するのに苦労している。本稿では,意味的対応のための幾何学的認識の重要性を明らかにし,単純な後処理による基礎モデルの特徴の制限を明らかにする。この情報を組み込むことで,ゼロショット設定と教師付き設定の両方において,単純かつ効果的な解決策によって意味対応性能が著しく向上することを示す。また,既存の動物のポーズ推定データセットから構築した意味的対応のための新しい難解なベンチマークを構築した。提案手法は,SPair-71kデータセット上で64.2(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成し,それぞれ4.3p,11.0pの絶対ゲインを達成した。コードとデータセットは公開されます。

関連論文リスト

Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels [69.58063088519852]
本稿では,3D対応の擬似ラベルを用いた意味対応推定法を提案する。具体的には, 3D-aware chaining を用いて得られた擬似ラベルを用いて, 既製の特徴を洗練するためのアダプタを訓練する。データセット固有のアノテーションの必要性を減らしながら、SPair-71kに新たな最先端を4%以上の絶対的なゲインに設定しました。
論文参考訳（メタデータ） (2025-06-05T17:54:33Z)
Learning Affine Correspondences by Integrating Geometric Constraints [30.695253062973784]
本稿では, 密マッチングと幾何制約を統合することで, 正確なアフィン対応を抽出するパイプラインを提案する。具体的には、密マッチングと新しいキーポイントスケールと向き推定器の助けを借りて、新しい抽出フレームワークを導入する。実験により,提案手法の精度とロバスト性は,画像マッチングタスクにおいて既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-07T08:44:50Z)
Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文参考訳（メタデータ） (2024-12-24T12:51:05Z)
Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps [39.00415825387414]
そこで本研究では, 識別的特徴を3次元的理解で補う意味対応推定手法を提案する。より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。本研究では,SPair-71kデータセットを用いて,複数のオブジェクトカテゴリにまたがる対称なビューと繰り返し部分の区別が可能であることを実証した。
論文参考訳（メタデータ） (2023-12-20T17:35:24Z)
iMatching: Imperative Correspondence Learning [5.568520539073218]
特徴対応学習のための自己指導型命令型学習(IL)を導入する。カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にする。特徴マッチングやポーズ推定などのタスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2023-12-04T18:58:20Z)
Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文参考訳（メタデータ） (2023-11-30T13:22:15Z)
Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文参考訳（メタデータ） (2023-04-17T17:59:46Z)
Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文参考訳（メタデータ） (2023-03-21T07:00:35Z)
Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文参考訳（メタデータ） (2022-11-07T05:49:19Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。