論文の概要: Learning to Parse Wireframes in Images of Man-Made Environments
- arxiv url: http://arxiv.org/abs/2007.07527v1
- Date: Wed, 15 Jul 2020 07:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:53:54.186734
- Title: Learning to Parse Wireframes in Images of Man-Made Environments
- Title(参考訳): マンメイド環境の画像におけるParse Wireframeの学習
- Authors: Kun Huang, Yifan Wang, Zihan Zhou, Tianjiao Ding, Shenghua Gao, Yi Ma
- Abstract要約: 人為的環境の表現課題に対する「ワイヤーフレーム」に基づくアプローチを提案する。
2つの大きな線とその分岐点を抽出するのに適したネットワークを構築した。
- 参考スコア(独自算出の注目度): 40.471924713855735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a learning-based approach to the task of
automatically extracting a "wireframe" representation for images of cluttered
man-made environments. The wireframe (see Fig. 1) contains all salient straight
lines and their junctions of the scene that encode efficiently and accurately
large-scale geometry and object shapes. To this end, we have built a very large
new dataset of over 5,000 images with wireframes thoroughly labelled by humans.
We have proposed two convolutional neural networks that are suitable for
extracting junctions and lines with large spatial support, respectively. The
networks trained on our dataset have achieved significantly better performance
than state-of-the-art methods for junction detection and line segment
detection, respectively. We have conducted extensive experiments to evaluate
quantitatively and qualitatively the wireframes obtained by our method, and
have convincingly shown that effectively and efficiently parsing wireframes for
images of man-made environments is a feasible goal within reach. Such
wireframes could benefit many important visual tasks such as feature
correspondence, 3D reconstruction, vision-based mapping, localization, and
navigation. The data and source code are available at
https://github.com/huangkuns/wireframe.
- Abstract(参考訳): 本稿では,人為的環境における画像の「ワイヤフレーム」表現を自動的に抽出するタスクに対する学習に基づくアプローチを提案する。
ワイヤーフレーム(図1参照)は、効率的かつ正確に大規模形状と物体形状をエンコードするシーンのすべてのサリエント直線とその接合を含む。
この目的のために、私たちは5000以上の画像からなる非常に大きなデータセットを構築しました。
我々は,空間支援の大きい接合点と線を抽出するのに適した2つの畳み込みニューラルネットワークを提案する。
我々のデータセットでトレーニングされたネットワークは、接合検出と線分検出の最先端手法よりも大幅に性能が向上した。
提案手法により得られたワイヤフレームを定量的かつ定性的に評価するための広範囲な実験を行い,人為的環境の画像に対するワイヤフレームの効果的かつ効率的な解析が到達可能な目標であることを実証した。
このようなワイヤーフレームは、特徴対応、3D再構成、視覚ベースのマッピング、ローカライゼーション、ナビゲーションなど、多くの重要な視覚的タスクに役立てることができる。
データとソースコードはhttps://github.com/huangkuns/wireframe.comで入手できる。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - LCD -- Line Clustering and Description for Place Recognition [29.053923938306323]
本稿では,RGB-Dカメラとラインクラスタを視覚的および幾何学的特徴として利用し,位置認識のための新しい学習ベースのアプローチを提案する。
本稿では,フレームワイド線クラスタリングのアテンション機構に基づくニューラルネットワークアーキテクチャを提案する。
同様のニューラルネットワークは、128個の浮動小数点数のコンパクトな埋め込みによるこれらのクラスタの記述に使用される。
論文 参考訳(メタデータ) (2020-10-21T09:52:47Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。