Fugu-MT 論文翻訳(概要): Deep auxiliary learning for visual localization using colorization task

論文の概要: Deep auxiliary learning for visual localization using colorization task

arxiv url: http://arxiv.org/abs/2107.00222v1
Date: Thu, 1 Jul 2021 05:25:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 13:36:37.143848
Title: Deep auxiliary learning for visual localization using colorization task
Title（参考訳）: カラー化タスクを用いた視覚定位のための深部補助学習
Authors: Mi Tian, Qiong Nie, Hao Shen, Xiahua Xia
Abstract要約: シーン固有の高レベルセマンティクスを導入することで,カメラのローカライゼーションのための新しい補助学習戦略を提案する。本研究では,色付けネットワークから特徴表現をローカライズネットワークに組込み,ポーズ回帰のための識別的特徴を生成する。本モデルは,屋内および屋外両方のデータセット上での最先端技術に対する局所化精度を著しく向上させる。
参考スコア（独自算出の注目度）: 25.803016939312137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual localization is one of the most important components for robotics and autonomous driving. Recently, inspiring results have been shown with CNN-based methods which provide a direct formulation to end-to-end regress 6-DoF absolute pose. Additional information like geometric or semantic constraints is generally introduced to improve performance. Especially, the latter can aggregate high-level semantic information into localization task, but it usually requires enormous manual annotations. To this end, we propose a novel auxiliary learning strategy for camera localization by introducing scene-specific high-level semantics from self-supervised representation learning task. Viewed as a powerful proxy task, image colorization task is chosen as complementary task that outputs pixel-wise color version of grayscale photograph without extra annotations. In our work, feature representations from colorization network are embedded into localization network by design to produce discriminative features for pose regression. Meanwhile an attention mechanism is introduced for the benefit of localization performance. Extensive experiments show that our model significantly improve localization accuracy over state-of-the-arts on both indoor and outdoor datasets.
Abstract（参考訳）: 視覚のローカライゼーションは、ロボット工学と自動運転の最も重要な要素の1つである。近年, 終端回帰6-DoF絶対ポーズに対して直接定式化を行うCNN法が提案されている。幾何学的制約や意味的制約などの追加情報は、一般的にパフォーマンスを改善するために導入される。特に後者は、高レベルのセマンティック情報をローカライズタスクに集約することができるが、通常は膨大な手動アノテーションを必要とする。そこで本研究では,自己監督型表現学習タスクから,シーン固有の高レベルセマンティクスを導入することで,カメラローカライゼーションのための新しい補助学習戦略を提案する。強力なプロキシタスクとして見なされるイメージカラー化タスクは、余分なアノテーションなしでグレースケール写真のピクセル毎のカラーバージョンを出力する補完タスクとして選択される。本研究では,色付けネットワークから特徴表現をローカライズネットワークに組込み,ポーズ回帰のための識別的特徴を生成する。一方、ローカライズ性能の恩恵を受けるために注意機構を導入する。大規模実験により, 室内データと屋外データの両方において, 最先端データよりもローカライズ精度が有意に向上した。

関連論文リスト

Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。 ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文参考訳（メタデータ） (2025-08-02T12:14:29Z)
Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文参考訳（メタデータ） (2024-07-22T12:32:09Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文参考訳（メタデータ） (2023-12-07T08:59:20Z)
Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文参考訳（メタデータ） (2022-12-13T01:36:56Z)
LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文参考訳（メタデータ） (2022-04-06T17:48:18Z)
Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T02:25:40Z)
Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文参考訳（メタデータ） (2021-03-10T15:23:45Z)
Simple and effective localized attribute representations for zero-shot learning [48.053204004771665]
Zero-shot Learning (ZSL) は、目に見えないクラスとイメージを区別することを目的としている。本稿では,意味/属性空間における局所化表現を提案する。提案手法は,ゼロショット学習のための新しいベースラインとして利用することができる。
論文参考訳（メタデータ） (2020-06-10T16:46:12Z)
Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文参考訳（メタデータ） (2020-03-21T15:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。