論文の概要: OFVL-MS: Once for Visual Localization across Multiple Indoor Scenes
- arxiv url: http://arxiv.org/abs/2308.11928v1
- Date: Wed, 23 Aug 2023 05:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:38:15.861969
- Title: OFVL-MS: Once for Visual Localization across Multiple Indoor Scenes
- Title(参考訳): OFVL-MS: 複数の屋内シーンにまたがる視覚的ローカライゼーション
- Authors: Tao Xie, Kun Dai, Siyi Lu, Ke Wang, Zhiqiang Jiang, Jinghan Gao,
Dedong Liu, Jie Xu, Lijun Zhao, Ruifeng Li
- Abstract要約: 本稿では,各シーンごとにモデルをトレーニングする従来の実践を省く統一的なフレームワークを提案する。
OFVL-MSファミリーは,より少ないパラメータで最先端を著しく上回ることを示す。
また、OFVL-MSは、より優れたローカライゼーション性能を得ながら、パラメータの少ない新しいシーンに一般化可能であることを検証する。
- 参考スコア(独自算出の注目度): 11.619738651389424
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we seek to predict camera poses across scenes with a multi-task
learning manner, where we view the localization of each scene as a new task. We
propose OFVL-MS, a unified framework that dispenses with the traditional
practice of training a model for each individual scene and relieves gradient
conflict induced by optimizing multiple scenes collectively, enabling efficient
storage yet precise visual localization for all scenes. Technically, in the
forward pass of OFVL-MS, we design a layer-adaptive sharing policy with a
learnable score for each layer to automatically determine whether the layer is
shared or not. Such sharing policy empowers us to acquire task-shared
parameters for a reduction of storage cost and task-specific parameters for
learning scene-related features to alleviate gradient conflict. In the backward
pass of OFVL-MS, we introduce a gradient normalization algorithm that
homogenizes the gradient magnitude of the task-shared parameters so that all
tasks converge at the same pace. Furthermore, a sparse penalty loss is applied
on the learnable scores to facilitate parameter sharing for all tasks without
performance degradation. We conduct comprehensive experiments on multiple
benchmarks and our new released indoor dataset LIVL, showing that OFVL-MS
families significantly outperform the state-of-the-arts with fewer parameters.
We also verify that OFVL-MS can generalize to a new scene with much few
parameters while gaining superior localization performance.
- Abstract(参考訳): 本研究では,各シーンの局所化を新たなタスクとして捉えたマルチタスク学習手法を用いて,シーン間のカメラポーズの予測を試みる。
OFVL-MSは,各シーン毎のモデルトレーニングを不要とし,複数のシーンを一括して最適化することによって引き起こされる勾配コンフリクトを緩和し,全シーンの効率的な記憶と正確な視覚的ローカライゼーションを実現する。
技術的には、OFVL-MSの前方通過において、各層に対して学習可能なスコアを持つ層適応共有ポリシーを設計し、その層が共有されているか否かを自動的に判定する。
このような共有政策により、ストレージコスト削減のためのタスク共有パラメータと、シーン関連の特徴を学習するためのタスク固有のパラメータを取得でき、グラデーションコンフリクトを緩和できる。
OFVL-MSの後方通過では、タスク共有パラメータの勾配度を均質化する勾配正規化アルゴリズムを導入し、全てのタスクを同じペースで収束させる。
さらに、学習可能なスコアにスパースペナルティ損失を適用し、性能劣化のない全タスクのパラメータ共有を容易にする。
複数のベンチマークと新たにリリースした屋内データセットLIVLに関する総合的な実験を行い、OFVL-MSファミリーは、より少ないパラメータで最先端の技術を著しく上回ることを示した。
また,ofvl-msが局所化性能を向上しつつ,パラメータの少ない新たなシーンに一般化できることを検証した。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - AdaTask: A Task-aware Adaptive Learning Rate Approach to Multi-task
Learning [19.201899503691266]
このパラメータ上の各タスクの総更新によって、パラメータのタスク支配度を測定する。
本稿では,各タスクの強調勾配と学習率を分離するタスクワイド適応学習率アプローチであるAdaTaskを提案する。
コンピュータビジョンとレコメンダシステムMTLデータセットの実験は、AdaTaskが支配的なタスクのパフォーマンスを大幅に改善することを示した。
論文 参考訳(メタデータ) (2022-11-28T04:24:38Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning [16.910911657616005]
同じタスクから複数のレベル/シーンを持つ環境で深い強化学習エージェントを訓練することは、多くのアプリケーションにとって不可欠です。
マルチシーン環境におけるサンプルのばらつきは,各シーンを個別のMDPとして扱うことで最小化できると論じる。
また,従来のCNN/LSTMに基づく批判ネットワークでは捉えられていないマルチシーン環境における真のジョイント値関数が,マルチモーダル分布に従うことを示した。
論文 参考訳(メタデータ) (2021-02-14T23:30:13Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z) - LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。
この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。
インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文 参考訳(メタデータ) (2020-04-20T10:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。