論文の概要: Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions
- arxiv url: http://arxiv.org/abs/2203.12667v1
- Date: Tue, 22 Mar 2022 16:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:44:28.189557
- Title: Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions
- Title(参考訳): 視覚・言語ナビゲーション:課題・方法・今後の方向性に関する調査
- Authors: Jing Gu, Eliana Stefani, Qi Wu, Jesse Thomason, Xin Eric Wang
- Abstract要約: VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
- 参考スコア(独自算出の注目度): 23.389491536958772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-term goal of AI research is to build intelligent agents that can
communicate with humans in natural language, perceive the environment, and
perform real-world tasks. Vision-and-Language Navigation (VLN) is a fundamental
and interdisciplinary research topic towards this goal, and receives increasing
attention from natural language processing, computer vision, robotics, and
machine learning communities. In this paper, we review contemporary studies in
the emerging field of VLN, covering tasks, evaluation metrics, methods, etc.
Through structured analysis of current progress and challenges, we highlight
the limitations of current VLN and opportunities for future work. This paper
serves as a thorough reference for the VLN research community.
- Abstract(参考訳): AI研究の長期的な目標は、自然言語で人間とコミュニケーションし、環境を認識し、現実世界のタスクを実行するインテリジェントエージェントを構築することである。
視覚・言語ナビゲーション(vln)は、この目標に向けて基礎的かつ学際的な研究テーマであり、自然言語処理、コンピュータビジョン、ロボット工学、機械学習コミュニティから注目を集めている。
本稿では, VLNの新興分野における現代研究を概観し, 課題, 評価指標, 方法等について述べる。
現状の進展と課題の構造化分析を通じて、現在のVLNの限界と今後の仕事の機会を強調します。
本稿では,VLN研究コミュニティの詳細な参考となる。
関連論文リスト
- Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives [10.16399860867284]
生成人工知能(AI)と大規模言語モデル(LLM)の出現は、自然言語処理(NLP)の新しい時代を象徴している。
本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。
論文 参考訳(メタデータ) (2024-07-20T18:48:35Z) - Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models [79.04590934264235]
VLN(Vision-and-Language Navigation)は近年注目を集めている。
基礎モデルは、VLN研究の課題と手法を形作っている。
論文 参考訳(メタデータ) (2024-07-09T16:53:36Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - Large Language Models for Education: A Survey and Outlook [69.02214694865229]
各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。
本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-26T21:04:29Z) - Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文 参考訳(メタデータ) (2024-02-22T05:45:17Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges [1.565870461096057]
この結果、視覚と言語の統合が多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
論文 参考訳(メタデータ) (2022-12-26T20:56:01Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。