論文の概要: Articulation-aware Canonical Surface Mapping
- arxiv url: http://arxiv.org/abs/2004.00614v3
- Date: Tue, 26 May 2020 22:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:14:17.049170
- Title: Articulation-aware Canonical Surface Mapping
- Title(参考訳): 調音対応カノニカル表面マッピング
- Authors: Nilesh Kulkarni, Abhinav Gupta, David F. Fouhey, Shubham Tulsiani
- Abstract要約: 本研究では,2次元画素から標準テンプレート形状の対応する点へのマッピングを示すCSM(Canonical Surface Mapping)を予測し,入力画像に対応するテンプレートの調音とポーズを推定するタスクに取り組む。
我々の重要な洞察は、これらのタスクは幾何学的に関連しており、予測間の一貫性を強制することで、監視信号を得ることができることである。
我々は,有意な調音学習において,調音がより正確なCSM予測の学習に役立ち,予測されたCSMとの整合性が重要であることを実証的に示す。
- 参考スコア(独自算出の注目度): 54.0990446915042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the tasks of: 1) predicting a Canonical Surface Mapping (CSM) that
indicates the mapping from 2D pixels to corresponding points on a canonical
template shape, and 2) inferring the articulation and pose of the template
corresponding to the input image. While previous approaches rely on keypoint
supervision for learning, we present an approach that can learn without such
annotations. Our key insight is that these tasks are geometrically related, and
we can obtain supervisory signal via enforcing consistency among the
predictions. We present results across a diverse set of animal object
categories, showing that our method can learn articulation and CSM prediction
from image collections using only foreground mask labels for training. We
empirically show that allowing articulation helps learn more accurate CSM
prediction, and that enforcing the consistency with predicted CSM is similarly
critical for learning meaningful articulation.
- Abstract(参考訳): 私たちは次の課題に取り組みます
1)正準テンプレート形状上の2次元画素から対応する点へのマッピングを示す正準曲面マッピング(csm)の予測と,
2)入力画像に対応するテンプレートの調音とポーズを推測する。
従来のアプローチはキーポイントによる学習の監督に依存していたが,このようなアノテーションを使わずに学習できるアプローチを提案する。
我々の重要な洞察は、これらのタスクは幾何学的に関連しており、予測間の一貫性を強制することで監督信号を得ることができることである。
本手法は,前景のマスクラベルのみを用いて,画像収集から調音とcsm予測を学習できることを示す。
我々は,有意な調音学習において,調音がより正確なCSM予測の学習に役立ち,予測されたCSMとの整合性が重要であることを実証的に示す。
関連論文リスト
- SHIC: Shape-Image Correspondences with no Keypoint Supervision [106.99157362200867]
正準曲面マッピングは、オブジェクトの各ピクセルを3Dテンプレートの対応する点に割り当てることで、キーポイント検出を一般化する。
人間の分析のためにDensePoseによって人気を得た著者は、この概念をより多くのカテゴリに適用しようと試みている。
そこで本研究では,手動による指導を伴わない標準地図学習手法ShiCを紹介し,ほとんどのカテゴリにおいて教師付き手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-26T17:58:59Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - ATCON: Attention Consistency for Vision Models [0.8312466807725921]
注意マップの整合性を改善する教師なしの微調整法を提案する。
Ablation studyではGrad-CAMおよびIntegrated Gradientsについて検討した。
これらの改良された注意マップは、臨床医が視覚モデル予測をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2022-10-18T09:30:20Z) - Unsupervised learning of features and object boundaries from local
prediction [0.0]
本稿では,各因子が追加のバイナリ変数とペアリングされ,その因子をオン/オフに切り替える,ペアワイズマルコフ確率場モデルによる特徴写像の層を導入する。
マルコフ確率場要素の特徴とパラメータの両方を、さらなる監視信号なしで画像から学習することができる。
宇宙空間での計算予測はセグメンテーションと特徴学習の両方に役立ち、これらの予測を最適化するために訓練されたモデルは人間の視覚システムと類似性を示す。
論文 参考訳(メタデータ) (2022-05-27T18:54:10Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Implicit Mesh Reconstruction from Unannotated Image Collections [48.85604987196472]
本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
論文 参考訳(メタデータ) (2020-07-16T17:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。