Fugu-MT 論文翻訳(概要): Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation

論文の概要: Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation

arxiv url: http://arxiv.org/abs/2310.15020v2
Date: Mon, 4 Dec 2023 03:48:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 21:48:43.451366
Title: Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation
Title（参考訳）: 一般化の鍵となる不変性:ビジュアルナビゲーションにおける表現の役割の検討
Authors: Bo Ai, Zhanxin Wu, David Hsu
Abstract要約: 一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。このような視覚ナビゲーションの表現を実験的に研究する。我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
参考スコア（独自算出の注目度）: 35.01394611106655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The data-driven approach to robot control has been gathering pace rapidly, yet generalization to unseen task domains remains a critical challenge. We argue that the key to generalization is representations that are (i) rich enough to capture all task-relevant information and (ii) invariant to superfluous variability between the training and the test domains. We experimentally study such a representation -- containing both depth and semantic information -- for visual navigation and show that it enables a control policy trained entirely in simulated indoor scenes to generalize to diverse real-world environments, both indoors and outdoors. Further, we show that our representation reduces the A-distance between the training and test domains, improving the generalization error bound as a result. Our proposed approach is scalable: the learned policy improves continuously, as the foundation models that it exploits absorb more diverse data during pre-training.
Abstract（参考訳）: ロボット制御に対するデータ駆動アプローチは急速にペースを上げているが、未認識のタスク領域への一般化は依然として重要な課題である。一般化の鍵は表現であると主張する。 (i)すべてのタスク関連情報を把握できるほど豊かで (ii) 訓練領域と試験領域の間の超流動変動に不変。視覚ナビゲーションのための深度情報と意味情報の両方を含むこのような表現を実験的に検討し、室内のシミュレートされたシーンで完全に訓練された制御ポリシーが屋内と屋外の両方の多様な現実世界環境に一般化できることを示す。さらに,本表現はトレーニング領域とテスト領域の間のa距離を減少させ,その結果,一般化誤差を改善できることを示す。学習したポリシは継続的に改善され、事前トレーニング中により多様なデータを吸収する基礎モデルが採用されます。

関連論文リスト

STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking for Sequential Data [4.351581973358463]
トランスフォーマーベースのアプローチであるSTaRFormerは、シーケンシャルモデリングのための普遍的なフレームワークとして機能する。 STaRFormerは、動的注意に基づく領域マスキングスキームと半教師付きコントラスト学習を組み合わせて、タスク固有の潜在表現を強化する。
論文参考訳（メタデータ） (2025-04-14T11:03:19Z)
Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
Learning Fair Invariant Representations under Covariate and Correlation Shifts Simultaneously [10.450977234741524]
フェアネスを意識したドメイン不変予測器の学習に焦点をあてた,新しい手法を提案する。提案手法は, モデル精度だけでなく, グループ的, 個人的公正性についても, 最先端の手法を超越した手法である。
論文参考訳（メタデータ） (2024-08-18T00:01:04Z)
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文参考訳（メタデータ） (2024-05-09T15:39:54Z)
Generalizable Imitation Learning Through Pre-Trained Representations [19.98418419179064]
我々は、リッチなDINO事前学習型Visual Transformer (ViT) パッチレベルの埋め込みを活用して、実演を通して学習する際の一般化を向上する模倣学習アルゴリズムであるBC-ViTを紹介する。我々の学習者は、外見の特徴をセマンティックな概念にまとめ、幅広い外見のバリエーションやオブジェクトタイプにまたがる安定なキーポイントを形成することで世界を見る。
論文参考訳（メタデータ） (2023-11-15T20:15:51Z)
Prompting Diffusion Representations for Cross-Domain Semantic Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文参考訳（メタデータ） (2023-07-05T09:28:25Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Generalization Across Observation Shifts in Reinforcement Learning [13.136140831757189]
バイシミュレーションフレームワークを拡張して、コンテキスト依存の観察シフトを考慮します。具体的には,シミュレータに基づく学習設定に焦点をあて,代替観測を用いて表現空間を学習する。これにより、テスト期間中にエージェントをさまざまな監視設定にデプロイし、目に見えないシナリオに一般化することができます。
論文参考訳（メタデータ） (2023-06-07T16:49:03Z)
Leveraging sparse and shared feature activations for disentangled representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-04-17T01:33:24Z)
Learning with Style: Continual Semantic Segmentation Across Tasks and Domains [25.137859989323537]
ドメイン適応とクラス増分学習はドメインとタスクの変数を別々に扱います。我々は、入力空間とラベル空間のセマンティックシフトを考慮して、問題の両面に一緒に取り組みます。提案手法は,タスクシフトとドメインシフトの両方で連続的なセマンティックセグメンテーションを扱うのに不十分であることを示す既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-13T13:24:34Z)
Temporal Disentanglement of Representations for Improved Generalisation in Reinforcement Learning [7.972204774778987]
実世界のロボット工学の応用において、強化学習(RL)エージェントは、訓練中に観察されなかった環境変動に一般化できないことが多い。本稿では,RL観測の逐次的性質を用いて,自己教師付き補助課題であるテポラル・ディスタングルメント(TED)を紹介した。 TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
論文参考訳（メタデータ） (2022-07-12T11:46:49Z)
Fishr: Invariant Gradient Variances for Out-of-distribution Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-09-07T08:36:09Z)
From Simulation to Real World Maneuver Execution using Deep Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文参考訳（メタデータ） (2020-05-13T14:22:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。