Fugu-MT 論文翻訳(概要): ENTL: Embodied Navigation Trajectory Learner

論文の概要: ENTL: Embodied Navigation Trajectory Learner

arxiv url: http://arxiv.org/abs/2304.02639v3
Date: Fri, 29 Sep 2023 15:11:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 19:07:17.675989
Title: ENTL: Embodied Navigation Trajectory Learner
Title（参考訳）: entl: 具体化ナビゲーションコース学習装置
Authors: Klemen Kotar, Aaron Walsman, Roozbeh Mottaghi
Abstract要約: エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
参考スコア（独自算出の注目度）: 37.43079415330256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL's generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.
Abstract（参考訳）: エンボディナビゲーションのための長いシーケンス表現を抽出する手法であるEmbodied Navigation Trajectory Learner (ENTL)を提案する。提案手法は,世界モデリング,ローカライゼーション,模倣学習を単一シーケンス予測タスクに統合する。我々は,現在の状態と動作に基づく将来の状態のベクトル量子化予測を用いてモデルを訓練する。 ENTLの汎用アーキテクチャは、複数の困難な実施タスクのための時空間シーケンスエンコーダの共有を可能にする。ローカライゼーションや将来のフレーム予測(世界モデリングのプロキシ)といった補助タスクを実行しながら,強力なベースラインよりもはるかに少ないデータを用いて,ナビゲーションタスクの競合性能を実現する。提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることであり、その結果、複数のタスクや環境に一般化できるということである。

関連論文リスト

Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers [11.075247758198762]
本稿では,統合的かつ効率的な視覚シーケンス変換器アーキテクチャを用いたマルチモーダルな将来の意味予測手法であるFUTURISTを紹介する。計算複雑性を低減し,トレーニングパイプラインを合理化し,高解像度なマルチモーダル入力によるエンドツーエンドのトレーニングを可能にする,VAEフリー階層型トークン化プロセスを提案する。我々は,Cityscapesデータセット上でFUTURISTを検証し,短期予測と中期予測の両方において将来的なセマンティックセグメンテーションにおける最先端性能を示す。
論文参考訳（メタデータ） (2025-01-14T18:34:14Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文参考訳（メタデータ） (2023-12-04T16:32:51Z)
Interactive Semantic Map Representation for Skill-based Visual Object Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文参考訳（メタデータ） (2023-11-07T16:30:12Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文参考訳（メタデータ） (2022-04-25T11:12:37Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Waypoint Models for Instruction-guided Navigation in Continuous Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文参考訳（メタデータ） (2021-10-05T17:55:49Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。