論文の概要: Zero-Shot Vision-and-Language Navigation with Collision Mitigation in Continuous Environment
- arxiv url: http://arxiv.org/abs/2410.17267v1
- Date: Mon, 07 Oct 2024 11:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:40:53.140150
- Title: Zero-Shot Vision-and-Language Navigation with Collision Mitigation in Continuous Environment
- Title(参考訳): 連続環境における衝突緩和によるゼロショットビジョン・ランゲージナビゲーション
- Authors: Seongjun Jeong, Gi-Cheon Kang, Joochan Kim, Byoung-Tak Zhang,
- Abstract要約: VLN-CMは4つのモジュールから構成され、各ステップにおける次の動きの方向と距離を予測する。
方向を選択するには、注意スポット予測器(ASP)、ビューセレクタ(VS)、プログレスモニター(PM)を使用する。
- 参考スコア(独自算出の注目度): 18.77936408985235
- License:
- Abstract: We propose the zero-shot Vision-and-Language Navigation with Collision Mitigation (VLN-CM), which takes these considerations. VLN-CM is composed of four modules and predicts the direction and distance of the next movement at each step. We utilize large foundation models for each modules. To select the direction, we use the Attention Spot Predictor (ASP), View Selector (VS), and Progress Monitor (PM). The ASP employs a Large Language Model (e.g. ChatGPT) to split navigation instructions into attention spots, which are objects or scenes at the location to move to (e.g. a yellow door). The VS selects from panorama images provided at 30-degree intervals the one that includes the attention spot, using CLIP similarity. We then choose the angle of the selected image as the direction to move in. The PM uses a rule-based approach to decide which attention spot to focus on next, among multiple spots derived from the instructions. If the similarity between the current attention spot and the visual observations decreases consecutively at each step, the PM determines that the agent has passed the current spot and moves on to the next one. For selecting the distance to move, we employed the Open Map Predictor (OMP). The OMP uses panorama depth information to predict an occupancy mask. We then selected a collision-free distance in the predicted direction based on the occupancy mask. We evaluated our method using the validation data of VLN-CE. Our approach showed better performance than several baseline methods, and the OPM was effective in mitigating collisions for the agent.
- Abstract(参考訳): 本稿では,これらを考慮したゼロショットビジョン・アンド・ランゲージナビゲーション(VLN-CM)を提案する。
VLN-CMは4つのモジュールから構成され、各ステップにおける次の動きの方向と距離を予測する。
各モジュールに対して大きな基礎モデルを利用する。
方向を選択するには、注意スポット予測器(ASP)、ビューセレクタ(VS)、プログレスモニター(PM)を使用する。
ASPは、大きな言語モデル(例えばChatGPT)を使用して、ナビゲーション命令を注意スポットに分割する。
VSは、CLIPの類似性を利用して、アテンションスポットを含むパノラマ画像から30度間隔で提供されるものを選択する。
次に、選択した画像の角度を移動方向として選択する。
PMはルールベースのアプローチを使用して、命令から派生した複数のスポットのうち、次に注目するスポットを決定する。
PMは、現在の注目スポットと視覚的観察との類似性が各ステップで連続的に減少すると、エージェントが現在のスポットを通過したことを判断し、次に進む。
移動距離の選択にはOpen Map Predictor(OMP)を使用しました。
OMPはパノラマ深度情報を用いて占有マスクを予測する。
次に,被占領マスクに基づいて,予測方向の衝突のない距離を選択した。
VLN-CEの検証データを用いて本手法の評価を行った。
提案手法はいくつかの基準法よりも優れた性能を示し,OPMはエージェントの衝突軽減に有効であった。
関連論文リスト
- SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts [13.202036465220766]
自動運転車は、環境と対話し安全な操作を計画するために、マルチモーダルな動き予測に頼っている。
我々は、複数の交通機関のシーンワイド・モーション・モードを予測するアテンションベースモデルであるSceneMotionを紹介する。
このモジュールは複数のエージェント中心の埋め込みからシーン全体の潜在空間を学習し、共同予測と相互作用モデリングを可能にする。
論文 参考訳(メタデータ) (2024-08-02T18:49:14Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Multimodal Across Domains Gaze Target Detection [18.41238482101682]
本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。
シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:09:00Z) - Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object
Tracking [114.16306938870055]
AMOTのための座標整列型マルチカメラ協調システムを提案する。
提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。
本システムでは,ベースライン法を8.9%上回る71.88%のカバレッジを実現している。
論文 参考訳(メタデータ) (2022-02-22T13:28:40Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z) - Spatial Priming for Detecting Human-Object Interactions [89.22921959224396]
画像中の人-物間相互作用(HOI)を検出するために,空間的レイアウト情報を利用する手法を提案する。
提案手法は,視覚モジュールを初期化して人間と物体の相互作用のタイプを予測するレイアウトモジュールから構成される。
提案したモデルでは、HICO-DetデータセットのmAPが24.79%に達し、これは現在の最先端よりも約2.8%高い。
論文 参考訳(メタデータ) (2020-04-09T23:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。