論文の概要: Symmetry-aware Neural Architecture for Embodied Visual Navigation
- arxiv url: http://arxiv.org/abs/2112.09515v1
- Date: Fri, 17 Dec 2021 14:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 14:08:01.743653
- Title: Symmetry-aware Neural Architecture for Embodied Visual Navigation
- Title(参考訳): 身体視覚ナビゲーションのための対称性アウェアニューラルアーキテクチャ
- Authors: Shuang Liu and Takayuki Okatani
- Abstract要約: 実験結果から,Gibsonデータセットでトレーニングし,MP3Dデータセットでテストした場合,提案手法は面積範囲を8.1m2$増加させることがわかった。
- 参考スコア(独自算出の注目度): 24.83118298491349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual exploration is a task that seeks to visit all the navigable areas of
an environment as quickly as possible. The existing methods employ deep
reinforcement learning (RL) as the standard tool for the task. However, they
tend to be vulnerable to statistical shifts between the training and test data,
resulting in poor generalization over novel environments that are
out-of-distribution (OOD) from the training data. In this paper, we attempt to
improve the generalization ability by utilizing the inductive biases available
for the task. Employing the active neural SLAM (ANS) that learns exploration
policies with the advantage actor-critic (A2C) method as the base framework, we
first point out that the mappings represented by the actor and the critic
should satisfy specific symmetries. We then propose a network design for the
actor and the critic to inherently attain these symmetries. Specifically, we
use $G$-convolution instead of the standard convolution and insert the
semi-global polar pooling (SGPP) layer, which we newly design in this study, in
the last section of the critic network. Experimental results show that our
method increases area coverage by $8.1 m^2$ when trained on the Gibson dataset
and tested on the MP3D dataset, establishing the new state-of-the-art.
- Abstract(参考訳): 視覚的な探索は、環境のすべてのナビゲート可能な領域をできるだけ早く訪れようとするタスクである。
既存の手法では、タスクの標準ツールとして深層強化学習(RL)を採用している。
しかし、それらはトレーニングデータとテストデータの間の統計的な変化に弱い傾向にあり、トレーニングデータからアウトオブディストリビューション(ood)である新しい環境に対して不十分な一般化をもたらす。
本稿では,タスクに利用可能な帰納バイアスを利用して一般化能力の向上を試みる。
基本フレームワークとして,アドバンテージアクタ-クリティック(a2c)法を用いて探索方針を学ぶアクティブニューラルスラム(ans)を用い,まず,アクタと批評家が代表するマッピングが特定の対称性を満たすべきであることを指摘した。
次に,これらの対称性を実現するために,俳優と批評家のネットワーク設計を提案する。
具体的には、標準的な畳み込みの代わりに$G$-convolutionを使用し、批判ネットワークの最後のセクションで新たに設計したセミ・グロバル・ポーラ・プーリング(SGPP)層を挿入する。
実験結果から,ギブソンデータセットでトレーニングし,MP3Dデータセットでテストした結果,領域範囲を8.1 m^2$に拡大し,新たな最先端技術を確立した。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Leveraging Data Geometry to Mitigate CSM in Steganalysis [1.130790932059036]
運用シナリオでは、ステガノグラフィーは様々なセンサーや処理パイプラインのカバーセットを使用し、研究者がステガノリシスモデルを訓練するために使用するものとは大きく異なる。
これにより、アウト・オブ・ディストリビューション・カバー(一般にCSM(Cover Source Mismatch)と呼ばれる)を扱う場合、必然的なパフォーマンスギャップが生じる。
本研究では,テストイメージを同じパイプラインで処理するシナリオについて考察する。本研究の目的は,ターゲットに対する最大一般化を可能にするトレーニングデータセットを特定することである。
論文 参考訳(メタデータ) (2023-10-06T09:08:25Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Deep Features for CBIR with Scarce Data using Hebbian Learning [17.57322804741561]
本研究では,コンテンツベース画像検索(CBIR)タスクのための特徴抽出器の開発において,生物学的にインスピレーションを得たテキストHebbian学習アルゴリズムの性能について検討する。
具体的には、まず、教師なし事前学習段階、次に、画像データセット上でネットワークを微調整する2つのステップで、半教師付き学習戦略を考察する。
論文 参考訳(メタデータ) (2022-05-18T14:00:54Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z) - Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:31:07Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。