論文の概要: Learning to Compose Hypercolumns for Visual Correspondence
- arxiv url: http://arxiv.org/abs/2007.10587v1
- Date: Tue, 21 Jul 2020 04:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:47:07.983064
- Title: Learning to Compose Hypercolumns for Visual Correspondence
- Title(参考訳): 視覚対応のためのハイパーカラム作成学習
- Authors: Juhong Min, Jongmin Lee, Jean Ponce, Minsu Cho
- Abstract要約: 本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
- 参考スコア(独自算出の注目度): 57.93635236871264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature representation plays a crucial role in visual correspondence, and
recent methods for image matching resort to deeply stacked convolutional
layers. These models, however, are both monolithic and static in the sense that
they typically use a specific level of features, e.g., the output of the last
layer, and adhere to it regardless of the images to match. In this work, we
introduce a novel approach to visual correspondence that dynamically composes
effective features by leveraging relevant layers conditioned on the images to
match. Inspired by both multi-layer feature composition in object detection and
adaptive inference architectures in classification, the proposed method, dubbed
Dynamic Hyperpixel Flow, learns to compose hypercolumn features on the fly by
selecting a small number of relevant layers from a deep convolutional neural
network. We demonstrate the effectiveness on the task of semantic
correspondence, i.e., establishing correspondences between images depicting
different instances of the same object or scene category. Experiments on
standard benchmarks show that the proposed method greatly improves matching
performance over the state of the art in an adaptive and efficient manner.
- Abstract(参考訳): 特徴表現は視覚的対応において重要な役割を担い、最近の画像マッチング手法は深く積み重ねられた畳み込み層に頼っている。
しかし、これらのモデルはモノリシックかつ静的であり、通常、最終層の出力のような特定のレベルの機能を使用し、一致する画像に関係なくそれに固執するという意味では静的である。
本研究では,画像に条件付けされた関連レイヤを利用して動的に効率的な特徴を構成する視覚対応手法を提案する。
オブジェクト検出における多層特徴合成と、分類における適応型推論アーキテクチャの両方に着想を得て、提案手法は動的ハイパーピクセルフローと呼ばれ、深層畳み込みニューラルネットワークから少数の関連層を選択することで、高速にハイパーカラム特徴を構成することを学ぶ。
意味対応のタスク、すなわち、同一のオブジェクトやシーンカテゴリの異なるインスタンスを描写する画像間の対応を確立することの有効性を示す。
標準ベンチマーク実験により,提案手法は適応的かつ効率的な手法で,最先端のマッチング性能を大幅に向上することが示された。
関連論文リスト
- Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Cross-View-Prediction: Exploring Contrastive Feature for Hyperspectral
Image Classification [9.131465469247608]
本稿では,ハイパースペクトル画像分類のための自己教師付き特徴学習手法を提案する。
本手法は,クロス表現学習手法を用いて,生のハイパースペクトル画像の2つの異なるビューを構築することを試みる。
そして、コントラスト学習法により、生成したビューに対して意味論的に一貫した表現を学習する。
論文 参考訳(メタデータ) (2022-03-14T11:07:33Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。