論文の概要: Vision-Language Navigation with Embodied Intelligence: A Survey
- arxiv url: http://arxiv.org/abs/2402.14304v1
- Date: Thu, 22 Feb 2024 05:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:11:07.689176
- Title: Vision-Language Navigation with Embodied Intelligence: A Survey
- Title(参考訳): 身体情報を用いた視覚言語ナビゲーション:サーベイ
- Authors: Peng Gao, Peng Wang, Feng Gao, Fei Wang, Ruyue Yuan
- Abstract要約: 視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
- 参考スコア(独自算出の注目度): 19.049590467248255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a long-term vision in the field of artificial intelligence, the core goal
of embodied intelligence is to improve the perception, understanding, and
interaction capabilities of agents and the environment. Vision-language
navigation (VLN), as a critical research path to achieve embodied intelligence,
focuses on exploring how agents use natural language to communicate effectively
with humans, receive and understand instructions, and ultimately rely on visual
information to achieve accurate navigation. VLN integrates artificial
intelligence, natural language processing, computer vision, and robotics. This
field faces technical challenges but shows potential for application such as
human-computer interaction. However, due to the complex process involved from
language understanding to action execution, VLN faces the problem of aligning
visual information and language instructions, improving generalization ability,
and many other challenges. This survey systematically reviews the research
progress of VLN and details the research direction of VLN with embodied
intelligence. After a detailed summary of its system architecture and research
based on methods and commonly used benchmark datasets, we comprehensively
analyze the problems and challenges faced by current research and explore the
future development direction of this field, aiming to provide a practical
reference for researchers.
- Abstract(参考訳): 人工知能の分野における長期的なビジョンとして、エンボディド・インテリジェンスの核となる目標は、エージェントと環境の認識、理解、相互作用能力を改善することである。
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路であり、エージェントが自然言語を使って人間と効果的にコミュニケーションし、指示を受け、理解し、最終的に正確なナビゲーションを達成するために視覚情報に頼る方法を探ることに焦点を当てている。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
この分野は技術的な課題に直面するが、人間とコンピュータの相互作用のような応用の可能性を示している。
しかしながら、言語理解から行動実行への複雑なプロセスのため、VLNは視覚情報と言語命令の整合、一般化能力の向上、その他多くの課題に直面している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
提案手法とベンチマークデータセットを用いたシステムアーキテクチャと研究の概要を詳述した上で,本研究で直面する課題と課題を包括的に分析し,本分野の今後の発展方向を探究し,研究者の実践的な参考となることを目的とした。
関連論文リスト
- Analyzing the Roles of Language and Vision in Learning from Limited Data [31.895396236504993]
我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。
すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
論文 参考訳(メタデータ) (2024-02-15T22:19:41Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models [98.72986679502871]
大規模言語モデル(LLM)を利用したチャットシステムが出現し、人工知能(AGI)を実現するための有望な方向へと急速に成長する
しかし、コンピュータビジョン(CV)におけるAGIへの道のりは未だに不明である。
CVアルゴリズムを世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するための事前トレーニングを行い、さまざまなタスクをこなすための命令で微調整するパイプラインを想像する。
論文 参考訳(メタデータ) (2023-06-14T17:15:01Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions [23.389491536958772]
VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
論文 参考訳(メタデータ) (2022-03-22T16:58:10Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Empowering Things with Intelligence: A Survey of the Progress,
Challenges, and Opportunities in Artificial Intelligence of Things [98.10037444792444]
AIがIoTをより速く、より賢く、よりグリーンで、より安全にするための力を与える方法を示します。
まず、認識、学習、推論、行動の4つの視点から、IoTのためのAI研究の進歩を示す。
最後に、私たちの世界を深く再形成する可能性が高いAIoTの有望な応用をいくつかまとめる。
論文 参考訳(メタデータ) (2020-11-17T13:14:28Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。