論文の概要: Multimodal Aggregation Approach for Memory Vision-Voice Indoor
Navigation with Meta-Learning
- arxiv url: http://arxiv.org/abs/2009.00402v1
- Date: Tue, 1 Sep 2020 13:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:28:12.871683
- Title: Multimodal Aggregation Approach for Memory Vision-Voice Indoor
Navigation with Meta-Learning
- Title(参考訳): メタラーニングを用いたメモリビジョンVoice屋内ナビゲーションのためのマルチモーダルアグリゲーション手法
- Authors: Liqi Yan and Dongfang Liu and Yaoxian Song and Changbin Yu
- Abstract要約: 本稿では,新しい室内ナビゲーションモデルである Memory Vision-Voice Indoor Navigation (MVV-IN) を提案する。
MVV-INはロボットの環境理解を高めるために音声コマンドを受信し、視覚観察のマルチモーダル情報を分析する。
- 参考スコア(独自算出の注目度): 5.448283690603358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and voice are two vital keys for agents' interaction and learning. In
this paper, we present a novel indoor navigation model called Memory
Vision-Voice Indoor Navigation (MVV-IN), which receives voice commands and
analyzes multimodal information of visual observation in order to enhance
robots' environment understanding. We make use of single RGB images taken by a
first-view monocular camera. We also apply a self-attention mechanism to keep
the agent focusing on key areas. Memory is important for the agent to avoid
repeating certain tasks unnecessarily and in order for it to adapt adequately
to new scenes, therefore, we make use of meta-learning. We have experimented
with various functional features extracted from visual observation. Comparative
experiments prove that our methods outperform state-of-the-art baselines.
- Abstract(参考訳): 視覚と音声はエージェントの相互作用と学習にとって重要な鍵である。
本稿では,ロボットの環境理解を高めるために,音声コマンドを受信し,視覚的観察のマルチモーダル情報を分析する,新しい室内ナビゲーションモデルである Memory Vision-Voice Indoor Navigation (MVV-IN) を提案する。
単眼カメラで撮影された1枚のrgb画像を利用する。
また,エージェントを重要領域に集中させるために自己注意機構を適用した。
メモリは,特定のタスクを不必要に繰り返すことを避けるために重要であり,新たなシーンに適切に適応するためにはメタラーニングを利用する。
視覚観察から抽出した各種機能について実験を行った。
比較実験により,本手法は最先端のベースラインより優れていることが示された。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning [9.519596058757033]
VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
本研究では、メタラーニングに基づく視覚認識一般化戦略を提案する。これにより、エージェントは数回のショットで新しいカメラ構成に迅速に適応することができる。
論文 参考訳(メタデータ) (2020-12-10T04:10:04Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Vision-Dialog Navigation by Exploring Cross-modal Memory [107.13970721435571]
視覚ダイアログナビゲーションは、視覚言語ディシプリナターゲットの新たな聖杯タスクとして機能する。
本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。
私たちのCMNは、従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があります。
論文 参考訳(メタデータ) (2020-03-15T03:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。