論文の概要: Deep auxiliary learning for visual localization using colorization task
- arxiv url: http://arxiv.org/abs/2107.00222v1
- Date: Thu, 1 Jul 2021 05:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:36:37.143848
- Title: Deep auxiliary learning for visual localization using colorization task
- Title(参考訳): カラー化タスクを用いた視覚定位のための深部補助学習
- Authors: Mi Tian, Qiong Nie, Hao Shen, Xiahua Xia
- Abstract要約: シーン固有の高レベルセマンティクスを導入することで,カメラのローカライゼーションのための新しい補助学習戦略を提案する。
本研究では,色付けネットワークから特徴表現をローカライズネットワークに組込み,ポーズ回帰のための識別的特徴を生成する。
本モデルは,屋内および屋外両方のデータセット上での最先端技術に対する局所化精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 25.803016939312137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization is one of the most important components for robotics and
autonomous driving. Recently, inspiring results have been shown with CNN-based
methods which provide a direct formulation to end-to-end regress 6-DoF absolute
pose. Additional information like geometric or semantic constraints is
generally introduced to improve performance. Especially, the latter can
aggregate high-level semantic information into localization task, but it
usually requires enormous manual annotations. To this end, we propose a novel
auxiliary learning strategy for camera localization by introducing
scene-specific high-level semantics from self-supervised representation
learning task. Viewed as a powerful proxy task, image colorization task is
chosen as complementary task that outputs pixel-wise color version of grayscale
photograph without extra annotations. In our work, feature representations from
colorization network are embedded into localization network by design to
produce discriminative features for pose regression. Meanwhile an attention
mechanism is introduced for the benefit of localization performance. Extensive
experiments show that our model significantly improve localization accuracy
over state-of-the-arts on both indoor and outdoor datasets.
- Abstract(参考訳): 視覚のローカライゼーションは、ロボット工学と自動運転の最も重要な要素の1つである。
近年, 終端回帰6-DoF絶対ポーズに対して直接定式化を行うCNN法が提案されている。
幾何学的制約や意味的制約などの追加情報は、一般的にパフォーマンスを改善するために導入される。
特に後者は、高レベルのセマンティック情報をローカライズタスクに集約することができるが、通常は膨大な手動アノテーションを必要とする。
そこで本研究では,自己監督型表現学習タスクから,シーン固有の高レベルセマンティクスを導入することで,カメラローカライゼーションのための新しい補助学習戦略を提案する。
強力なプロキシタスクとして見なされるイメージカラー化タスクは、余分なアノテーションなしでグレースケール写真のピクセル毎のカラーバージョンを出力する補完タスクとして選択される。
本研究では,色付けネットワークから特徴表現をローカライズネットワークに組込み,ポーズ回帰のための識別的特徴を生成する。
一方、ローカライズ性能の恩恵を受けるために注意機構を導入する。
大規模実験により, 室内データと屋外データの両方において, 最先端データよりもローカライズ精度が有意に向上した。
関連論文リスト
- Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - Structure-Guided Image Completion with Image-level and Object-level
Semantic Discriminators [118.6132221271663]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Simple and effective localized attribute representations for zero-shot
learning [48.053204004771665]
Zero-shot Learning (ZSL) は、目に見えないクラスとイメージを区別することを目的としている。
本稿では,意味/属性空間における局所化表現を提案する。
提案手法は,ゼロショット学習のための新しいベースラインとして利用することができる。
論文 参考訳(メタデータ) (2020-06-10T16:46:12Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。