論文の概要: NOLO: Navigate Only Look Once
- arxiv url: http://arxiv.org/abs/2408.01384v2
- Date: Sat, 16 Nov 2024 15:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:13.852251
- Title: NOLO: Navigate Only Look Once
- Title(参考訳): NOLO: Navigateは一度しか見えません
- Authors: Bohan Zhou, Zhongbin Zhang, Jiangxing Wang, Zongqing Lu,
- Abstract要約: 本稿では、オフラインでビデオからコンテキスト内ナビゲーションポリシーを純粋に学習する必要があるビデオナビゲーション設定に焦点を当てる。
In-context 能力を有するナビゲーションポリシーの学習方法である Navigate Only Look Once (NOLO) を提案する。
提案アルゴリズムは,学習ポリシーの文脈内学習能力を実証し,ベースラインを大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 29.242548047719787
- License:
- Abstract: The in-context learning ability of Transformer models has brought new possibilities to visual navigation. In this paper, we focus on the video navigation setting, where an in-context navigation policy needs to be learned purely from videos in an offline manner, without access to the actual environment. For this setting, we propose Navigate Only Look Once (NOLO), a method for learning a navigation policy that possesses the in-context ability and adapts to new scenes by taking corresponding context videos as input without finetuning or re-training. To enable learning from videos, we first propose a pseudo action labeling procedure using optical flow to recover the action label from egocentric videos. Then, offline reinforcement learning is applied to learn the navigation policy. Through extensive experiments on different scenes both in simulation and the real world, we show that our algorithm outperforms baselines by a large margin, which demonstrates the in-context learning ability of the learned policy. For videos and more information, visit https://sites.google.com/view/nol0.
- Abstract(参考訳): Transformerモデルのコンテキスト内学習能力は、ビジュアルナビゲーションに新たな可能性をもたらした。
本稿では,実環境にアクセスすることなく,オフラインで映像からコンテキスト内ナビゲーションポリシーを純粋に学習する必要があるビデオナビゲーション設定に焦点を当てる。
そこで,本研究では,インコンテキスト能力を有するナビゲーションポリシーを学習し,対応するコンテキストビデオの入力を微調整や再学習をすることなく,新たなシーンに適応するNOLO(Navigate Only Look Once)を提案する。
ビデオから学習できるようにするために,まず,光学フローを用いた擬似動作ラベル作成手法を提案し,自己中心型ビデオから動作ラベルを復元する。
そして、ナビゲーションポリシーを学習するためにオフライン強化学習を適用する。
シミュレーションと実世界の両方における様々な場面での広範な実験を通して、我々のアルゴリズムはベースラインを大きなマージンで上回り、学習したポリシーの文脈内学習能力を示す。
ビデオや詳細については、https://sites.google.com/view/nol0.comをご覧ください。
関連論文リスト
- VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。
本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文 参考訳(メタデータ) (2020-10-27T18:22:43Z) - Semantic Visual Navigation by Watching YouTube Videos [17.76847333440422]
本稿は,YouTube動画を単に視聴することで,新たな環境への関心の対象へのナビゲートを行うための意味的手法を学習し,活用する。
本研究では、受動的データからの外部のQ-ラーニングがナビゲーションに意味のある意味的手がかりを学習できることを示す。
我々は,最小の直接的相互作用を用いて,エンド・ツー・エンドのRL,行動クローニング,古典的手法に対して15~83%の相対的な改善を観察した。
論文 参考訳(メタデータ) (2020-06-17T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。