論文の概要: VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator
- arxiv url: http://arxiv.org/abs/2105.11589v1
- Date: Tue, 25 May 2021 00:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:35:12.948242
- Title: VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator
- Title(参考訳): visitron: 対話的に訓練されたオブジェクトナビゲータ
- Authors: Ayush Shrivastava, Karthik Gopalakrishnan, Yang Liu, Robinson
Piramuthu, Gokhan T\"ur, Devi Parikh, Dilek Hakkani-T\"ur
- Abstract要約: 写真リアル環境をナビゲートする対話型ロボットは、視覚・言語ナビゲーション(VLN)の基礎となる課題に直面している
CVDN固有の対話型システムに適したナビゲータであるVISITRONを提案する。
CVDNの性能向上と経験的洞察を得るため,VISITRONと広範囲にわたるアブリケーションを行った。
- 参考スコア(独自算出の注目度): 41.060371177425175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive robots navigating photo-realistic environments face challenges
underlying vision-and-language navigation (VLN), but in addition, they need to
be trained to handle the dynamic nature of dialogue. However, research in
Cooperative Vision-and-Dialog Navigation (CVDN), where a navigator interacts
with a guide in natural language in order to reach a goal, treats the dialogue
history as a VLN-style static instruction. In this paper, we present VISITRON,
a navigator better suited to the interactive regime inherent to CVDN by being
trained to: i) identify and associate object-level concepts and semantics
between the environment and dialogue history, ii) identify when to interact vs.
navigate via imitation learning of a binary classification head. We perform
extensive ablations with VISITRON to gain empirical insights and improve
performance on CVDN. VISITRON is competitive with models on the static CVDN
leaderboard. We also propose a generalized interactive regime to fine-tune and
evaluate VISITRON and future such models with pre-trained guides for
adaptability.
- Abstract(参考訳): フォトリアリスティックな環境をナビゲートするインタラクティブロボットは、視覚言語ナビゲーション(vln)の基盤となる課題に直面しているが、対話のダイナミックな性質を扱うように訓練する必要がある。
しかしながら、ナビゲータが目標を達成するために自然言語のガイドと対話するコラボレーティブビジョン・アンド・ダイアログナビゲーション(CVDN)の研究は、対話履歴をVLNスタイルの静的命令として扱う。
本稿では, cvdnに固有な対話型システムに適したナビゲータである visitron について, i) 環境と対話履歴間のオブジェクトレベルの概念と意味を識別・関連付けること, ii) バイナリ分類ヘッドの模倣学習による対話とナビゲータの対話のタイミングを識別すること, について述べる。
CVDNの性能向上と経験的洞察を得るため,VISITRONによる広範囲な改善を行った。
VISITRONは、静的CVDNリーダーボードのモデルと競合する。
また,VISITRONを微調整する汎用対話型システムを提案し,適応性向上のための事前学習ガイドを用いた将来のモデルについて検討する。
関連論文リスト
- Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Transferring ConvNet Features from Passive to Active Robot
Self-Localization: The Use of Ego-Centric and World-Centric Views [2.362412515574206]
標準VPRサブシステムは利用可能であると仮定され、ドメイン不変な状態認識能力はドメイン不変なNBVプランナーを訓練するために転送される。
我々は,CNNモデルから利用可能な視覚的手がかりを,出力層キュー(OLC)と中間層キュー(ILC)の2つのタイプに分割する。
本フレームワークでは,ICCとOLCを状態ベクトルにマッピングし,深層強化学習による多視点NBVプランナの訓練に使用する。
論文 参考訳(メタデータ) (2022-04-22T04:42:33Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Vision-Dialog Navigation by Exploring Cross-modal Memory [107.13970721435571]
視覚ダイアログナビゲーションは、視覚言語ディシプリナターゲットの新たな聖杯タスクとして機能する。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
私たちのCMNは、従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があります。
論文 参考訳(メタデータ) (2020-03-15T03:08:06Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。