論文の概要: Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
- arxiv url: http://arxiv.org/abs/2412.08467v2
- Date: Fri, 28 Feb 2025 08:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:39:59.771980
- Title: Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
- Title(参考訳): 自己精錬データフライホイールを用いたブートストラップ型ナビゲーション学習
- Authors: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang,
- Abstract要約: 本稿では,高品質かつ大規模な航法軌道対を生成する自己精製型データフライホイール(SRDF)を提案する。
実験により, 数回のフライホイールラウンドの後, ナビゲータは従来のR2Rテストセットにおいて, 70%から78%のSPLの性能境界を上昇させることを示した。
このプロセスは、以前のVLN命令生成方法よりも23.5から26.2へのSPICE増加によって証明された優れたジェネレータをもたらす。
- 参考スコア(独自算出の注目度): 83.7466618084902
- License:
- Abstract: Creating high-quality data for training robust language-instructed agents is a long-lasting challenge in embodied AI. In this paper, we introduce a Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale navigational instruction-trajectory pairs by iteratively refining the data pool through the collaboration between two models, the instruction generator and the navigator, without any human-in-the-loop annotation. Specifically, SRDF starts with using a base generator to create an initial data pool for training a base navigator, followed by applying the trained navigator to filter the data pool. This leads to higher-fidelity data to train a better generator, which can, in turn, produce higher-quality data for training the next-round navigator. Such a flywheel establishes a data self-refining process, yielding a continuously improved and highly effective dataset for large-scale language-guided navigation learning. Our experiments demonstrate that after several flywheel rounds, the navigator elevates the performance boundary from 70% to 78% SPL on the classic R2R test set, surpassing human performance (76%) for the first time. Meanwhile, this process results in a superior generator, evidenced by a SPICE increase from 23.5 to 26.2, better than all previous VLN instruction generation methods. Finally, we demonstrate the scalability of our method through increasing environment and instruction diversity, and the generalization ability of our pre-trained navigator across various downstream navigation tasks, surpassing state-of-the-art methods by a large margin in all cases.
- Abstract(参考訳): 堅牢な言語命令されたエージェントをトレーニングするための高品質なデータを作成することは、AIを具現化する上で、長く続く課題である。
本稿では,命令生成器とナビゲータの2つのモデル間の協調によるデータプールの反復的精錬により,高品質で大規模な航法軌道ペアを生成する自己精錬データフライホイール(SRDF)を提案する。
具体的には、SRDFはベースジェネレータを使用してベースナビゲータをトレーニングするための初期データプールを作成し、次いでトレーニングされたナビゲータを使用してデータプールをフィルタリングする。
これにより、より優れたジェネレータをトレーニングするための高忠実度データを導き、次のラウンドのナビゲータをトレーニングするための高品質なデータを生成することができる。
このようなフライホイールはデータの自己精製プロセスを確立し、大規模言語誘導ナビゲーション学習のための継続的な改善と高効率なデータセットを提供する。
実験では,数回のフライホイールラウンドの後,従来のR2Rテストセットにおいて,ナビゲータは70%から78%まで性能境界を高くし,人体性能(76%)を初めて上回った。
一方、このプロセスはSPICEの23.5から26.2への増加によって証明された優れたジェネレータとなり、従来のVLN命令生成方法よりも優れている。
最後に,環境と命令の多様性の向上による手法のスケーラビリティ,および各種下流ナビゲーションタスクにおける事前学習ナビゲータの一般化能力について述べる。
関連論文リスト
- Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning [3.586527534935176]
オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。
本稿では,専門家の質の高い拡張データを生成するためのガイド付きデータ拡張(GuDA)を提案する。
GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた学習を可能にする。
論文 参考訳(メタデータ) (2023-10-27T16:34:00Z) - PlaceNav: Topological Navigation through Place Recognition [1.9382079036818822]
そこで我々はPlaceNavを紹介し、ロボットに依存しない部分をナビゲーション固有の汎用コンピュータビジョンコンポーネントに分割する。
トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。
実験の結果,提案手法は室内で76%,屋外ナビゲーションでは23%,計算効率が向上した。
論文 参考訳(メタデータ) (2023-09-29T14:12:54Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Enhancing Navigation Benchmarking and Perception Data Generation for
Row-based Crops in Simulation [0.3518016233072556]
本稿では,セマンティックセグメンテーションネットワークを学習するための合成データセットと,ナビゲーションアルゴリズムを高速に評価するための仮想シナリオのコレクションを提案する。
異なるフィールドジオメトリと特徴を探索するための自動パラメトリック手法が開発されている。
シミュレーションフレームワークとデータセットは、異なる作物のディープセグメンテーションネットワークをトレーニングし、その結果のナビゲーションをベンチマークすることで評価されている。
論文 参考訳(メタデータ) (2023-06-27T14:46:09Z) - Offline Reinforcement Learning for Visual Navigation [66.88830049694457]
ReViNDは、ロボットナビゲーションのための最初のオフラインRLシステムで、これまで収集されたデータを利用して、現実世界でユーザーが指定した報酬関数を最適化する。
ReViNDは、このデータセットからのオフライントレーニングのみを使用して、遠方の目標にナビゲートできることを示し、ユーザ指定の報酬関数に基づいて、質的に異なる振る舞いを示す。
論文 参考訳(メタデータ) (2022-12-16T02:23:50Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Ultrasound-Guided Robotic Navigation with Deep Reinforcement Learning [38.136007056617885]
本稿では,超音波(US)画像を入力として利用する,RLに基づくロボットナビゲーション手法を提案する。
提案したモデルをテストすると,165の異なるスタート位置から正常に仙骨へ移動する確率82.91%を得た。
論文 参考訳(メタデータ) (2020-03-30T10:13:23Z) - Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN [80.17705319689139]
複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するために,データフリーな知識アマルガメート戦略を提案する。
トレーニングデータを持たない提案手法は, フル教師付き手法と比較して, 驚くほど競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-03-20T03:20:52Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。