論文の概要: How to Train PointGoal Navigation Agents on a (Sample and Compute)
Budget
- arxiv url: http://arxiv.org/abs/2012.06117v1
- Date: Fri, 11 Dec 2020 04:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:14:32.248243
- Title: How to Train PointGoal Navigation Agents on a (Sample and Compute)
Budget
- Title(参考訳): ポイントゴールナビゲーションエージェントを(サンプルと計算)予算で訓練する方法
- Authors: Erik Wijmans and Irfan Essa and Dhruv Batra
- Abstract要約: サンプル予算(75万フレーム)と計算予算(1日で1GPU)の両方でPointGoalナビゲーションを研究する。
計算予算では、RGB-DエージェントのパフォーマンスはGibsonで19 SPL、Matterport3Dで35 SPL向上している。
コミュニティの実験をより効率的にするために、私たちの発見と推奨が役立てることを願っています。
- 参考スコア(独自算出の注目度): 52.17005499269176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PointGoal navigation has seen significant recent interest and progress,
spurred on by the Habitat platform and associated challenge. In this paper, we
study PointGoal navigation under both a sample budget (75 million frames) and a
compute budget (1 GPU for 1 day). We conduct an extensive set of experiments,
cumulatively totaling over 50,000 GPU-hours, that let us identify and discuss a
number of ostensibly minor but significant design choices -- the advantage
estimation procedure (a key component in training), visual encoder
architecture, and a seemingly minor hyper-parameter change. Overall, these
design choices to lead considerable and consistent improvements over the
baselines present in Savva et al. Under a sample budget, performance for RGB-D
agents improves 8 SPL on Gibson (14% relative improvement) and 20 SPL on
Matterport3D (38% relative improvement). Under a compute budget, performance
for RGB-D agents improves by 19 SPL on Gibson (32% relative improvement) and 35
SPL on Matterport3D (220% relative improvement). We hope our findings and
recommendations will make serve to make the community's experiments more
efficient.
- Abstract(参考訳): ポイントゴールナビゲーションは、居住地プラットフォームと関連する課題によって推進され、近年大きな関心と進歩が見られる。
本稿では,サンプル予算 (75万フレーム) と計算予算 (1日あたり1GPU) の両面からPointGoalナビゲーションについて検討する。
さまざまな実験を行い、累計で5万以上のgpu時間を計上し、表面上はマイナーだが重要な設計選択 — アドバンテージ推定手順(トレーニングにおける重要なコンポーネント)、ビジュアルエンコーダアーキテクチャ、一見小さなハイパーパラメータの変更 — を特定し、議論することができました。
全体として、これらの設計選択は、savvaなどに存在するベースラインに対して、相当かつ一貫した改善をもたらすことになる。
サンプル予算では、RGB-Dエージェントの性能はギブソンでは8 SPL(相対改善率14%)、マターポート3Dでは20 SPL(相対改善率38%)である。
計算予算では、RGB-Dエージェントの性能はGibsonの19 SPL(32%の相対改善)とMatterport3Dの35 SPL(220%の相対改善)に改善される。
コミュニティの実験をより効率的にするために、私たちの発見と推奨が役立てることを願っています。
関連論文リスト
- Bundle Adjustment in the Eager Mode [14.13835018035969]
我々はPyPoseとシームレスに統合された、熱心に動く Bundle 調整フレームワークを提案する。
提案手法は,2次最適化のために設計されたGPUアクセラレーション,微分可能,スパース演算,リー群およびリー代数演算,線形解法を含む。
提案手法は, GTSAM, g$2$o, Ceresと比較して平均18.5$times$, 22$times$, 23$times$の平均速度アップを実現している。
論文 参考訳(メタデータ) (2024-09-18T17:59:29Z) - Approximation-Aware Bayesian Optimization [34.56666383247348]
高次元ベイズ最適化(BO)タスクは、意味のある結果を得る前に10,000の関数評価を必要とすることが多い。
本稿では,小変動ガウス過程 (SVGP) をBOの目標とよく一致させるために修正する。
ユーティリティ校正変分推論の枠組みを用いて,GP近似とデータ取得を共同最適化問題に統一する。
論文 参考訳(メタデータ) (2024-06-06T17:55:02Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater
Robots [4.157415305926584]
低コスト水中ロボットの3次元認識機能を実現するための高速な単眼深度推定法を提案する。
我々は,自然の水中シーンの画像形成特性に関するドメイン知識を取り入れた,UDepthという新しいエンド・ツー・エンドの深層学習パイプラインを定式化した。
論文 参考訳(メタデータ) (2022-09-26T01:08:36Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。