論文の概要: Learning to Act with Affordance-Aware Multimodal Neural SLAM
- arxiv url: http://arxiv.org/abs/2201.09862v1
- Date: Mon, 24 Jan 2022 18:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 18:23:48.340229
- Title: Learning to Act with Affordance-Aware Multimodal Neural SLAM
- Title(参考訳): Affordance-Aware Multimodal Neural SLAM を用いた行動学習
- Authors: Zhiwei Jia, Kaixiang Lin, Yizhou Zhao, Qiaozi Gao, Govind Thattai,
Gaurav Sukhatme
- Abstract要約: 本稿では,探索にいくつかのモダリティを利用するニューラルSLAM手法を提案する。
ALFREDベンチマークの事前発表よりも40%以上の改善が得られ、テストの見つからない場面で、新しい最先端の一般化性能を23.48%の成功率で設定した。
- 参考スコア(独自算出の注目度): 11.695095006311176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed an emerging paradigm shift toward embodied
artificial intelligence, in which an agent must learn to solve challenging
tasks by interacting with its environment. There are several challenges in
solving embodied multimodal tasks, including long-horizon planning,
vision-and-language grounding, and efficient exploration. We focus on a
critical bottleneck, namely the performance of planning and navigation. To
tackle this challenge, we propose a Neural SLAM approach that, for the first
time, utilizes several modalities for exploration, predicts an affordance-aware
semantic map, and plans over it at the same time. This significantly improves
exploration efficiency, leads to robust long-horizon planning, and enables
effective vision-and-language grounding. With the proposed Affordance-aware
Multimodal Neural SLAM (AMSLAM) approach, we obtain more than $40\%$
improvement over prior published work on the ALFRED benchmark and set a new
state-of-the-art generalization performance at a success rate of $23.48\%$ on
the test unseen scenes.
- Abstract(参考訳): 近年,エージェントが環境と対話することで課題解決を学ばなければならない人工知能へのパラダイムシフトが出現している。
具体化されたマルチモーダルなタスクの解決には、ロングホリゾン計画、ビジョン・アンド・ランゲージ・グラウンド、効率的な探索など、いくつかの課題がある。
私たちは重要なボトルネック、すなわち計画とナビゲーションのパフォーマンスに焦点を当てています。
この課題に対処するために、我々は初めていくつかのモダリティを探索に利用し、余裕を考慮したセマンティックマップを予測し、同時に計画するNeural SLAMアプローチを提案する。
これにより、探査効率が大幅に向上し、長期ホライゾン計画が堅牢になり、効果的なビジョンと言語グラウンド化が可能になる。
提案した Affordance-aware Multimodal Neural SLAM (AMSLAM) アプローチでは,ALFRED ベンチマークの事前公開作業に対して 40 % 以上の改善が得られ,テスト対象外のシーンで23.48 % の成功率で新たな最先端の一般化性能が設定される。
関連論文リスト
- BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。