論文の概要: 360-MLC: Multi-view Layout Consistency for Self-training and
Hyper-parameter Tuning
- arxiv url: http://arxiv.org/abs/2210.12935v1
- Date: Mon, 24 Oct 2022 03:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:38:58.153910
- Title: 360-MLC: Multi-view Layout Consistency for Self-training and
Hyper-parameter Tuning
- Title(参考訳): 360-MLC: 自己学習とハイパーパラメータチューニングのためのマルチビューレイアウト一貫性
- Authors: Bolivar Solarte, Chin-Hsuan Wu, Yueh-Cheng Liu, Yi-Hsuan Tsai, Min Sun
- Abstract要約: モノクラールームモデルを微調整するための多視点レイアウト整合性に基づく自己学習手法である360-MLCを提案する。
我々は,複数のレイアウト推定におけるエントロピー情報を定量的な指標として活用し,シーンの幾何的整合性を測定する。
- 参考スコア(独自算出の注目度): 40.93848397359068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present 360-MLC, a self-training method based on multi-view layout
consistency for finetuning monocular room-layout models using unlabeled
360-images only. This can be valuable in practical scenarios where a
pre-trained model needs to be adapted to a new data domain without using any
ground truth annotations. Our simple yet effective assumption is that multiple
layout estimations in the same scene must define a consistent geometry
regardless of their camera positions. Based on this idea, we leverage a
pre-trained model to project estimated layout boundaries from several camera
views into the 3D world coordinate. Then, we re-project them back to the
spherical coordinate and build a probability function, from which we sample the
pseudo-labels for self-training. To handle unconfident pseudo-labels, we
evaluate the variance in the re-projected boundaries as an uncertainty value to
weight each pseudo-label in our loss function during training. In addition,
since ground truth annotations are not available during training nor in
testing, we leverage the entropy information in multiple layout estimations as
a quantitative metric to measure the geometry consistency of the scene,
allowing us to evaluate any layout estimator for hyper-parameter tuning,
including model selection without ground truth annotations. Experimental
results show that our solution achieves favorable performance against
state-of-the-art methods when self-training from three publicly available
source datasets to a unique, newly labeled dataset consisting of multi-view of
the same scenes.
- Abstract(参考訳): 未ラベルの360画像のみを用いた単眼室レイアウトモデルの多視点整合性に基づく自己学習手法である360-MLCを提案する。
これは、基礎となる真理のアノテーションを使わずに、トレーニング済みのモデルを新しいデータドメインに適応する必要がある実践的なシナリオで有用である。
我々の単純な仮定は、同じシーンにおける複数のレイアウト推定は、カメラの位置に関係なく一貫した幾何を定義する必要があるというものである。
このアイデアに基づいて、事前学習モデルを用いて、複数のカメラビューから推定レイアウト境界を3次元世界座標に投影する。
そして、それらを球面座標に再投影し、確率関数を構築し、そこから擬似ラベルをサンプリングして自己学習する。
不確実な擬似ラベルを扱うために,再計画された境界のばらつきを不確実な値として評価し,学習中の損失関数の各擬似ラベルを重み付けする。
また,地中真理アノテーションはトレーニング中やテスト中は利用できないため,複数のレイアウト推定におけるエントロピー情報を定量的な指標として活用し,地中真理アノテーションを使わずにモデル選択を含むハイパーパラメータチューニングのためのレイアウト推定器を評価することができる。
実験結果から,3つの公開ソースデータセットから同一シーンのマルチビューからなる独自のラベル付きデータセットへの自己学習を行う場合,提案手法は最先端の手法に対して良好な性能を示すことが示された。
関連論文リスト
- Self-training Room Layout Estimation via Geometry-aware Ray-casting [27.906107629563852]
本研究では,未表示のシーンにおける室内レイアウト推定モデルのための幾何学的自己学習フレームワークを提案する。
提案手法では,異なる視点からの複数の推定値の集計にレイキャストの定式化を用いる。
論文 参考訳(メタデータ) (2024-07-21T03:25:55Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Not Every Side Is Equal: Localization Uncertainty Estimation for
Semi-Supervised 3D Object Detection [38.77989138502667]
点雲からの半教師付き3Dオブジェクト検出は、少数のラベル付きデータと多数のラベルなしデータで検出器を訓練することを目的としている。
既存の方法は、各擬似境界ボックス全体を扱い、トレーニング中に各側面に等しい重要性を割り当てる。
3つの鍵設計からなる半教師付き3次元物体検出のためのサイドアウェアフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T09:08:03Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Self-supervised 360$^{\circ}$ Room Layout Estimation [20.062713286961326]
ラベル付きデータを使わずにパノラマ的な部屋配置推定モデルを訓練するための,最初の自己教師方式を提案する。
弊社のアプローチでは、データ共有シナリオとアクティブラーニングにおける有望なソリューションも示しています。
論文 参考訳(メタデータ) (2022-03-30T04:58:07Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。