論文の概要: Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions
- arxiv url: http://arxiv.org/abs/2203.12667v1
- Date: Tue, 22 Mar 2022 16:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:44:28.189557
- Title: Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions
- Title(参考訳): 視覚・言語ナビゲーション:課題・方法・今後の方向性に関する調査
- Authors: Jing Gu, Eliana Stefani, Qi Wu, Jesse Thomason, Xin Eric Wang
- Abstract要約: VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
- 参考スコア(独自算出の注目度): 23.389491536958772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-term goal of AI research is to build intelligent agents that can
communicate with humans in natural language, perceive the environment, and
perform real-world tasks. Vision-and-Language Navigation (VLN) is a fundamental
and interdisciplinary research topic towards this goal, and receives increasing
attention from natural language processing, computer vision, robotics, and
machine learning communities. In this paper, we review contemporary studies in
the emerging field of VLN, covering tasks, evaluation metrics, methods, etc.
Through structured analysis of current progress and challenges, we highlight
the limitations of current VLN and opportunities for future work. This paper
serves as a thorough reference for the VLN research community.
- Abstract(参考訳): AI研究の長期的な目標は、自然言語で人間とコミュニケーションし、環境を認識し、現実世界のタスクを実行するインテリジェントエージェントを構築することである。
視覚・言語ナビゲーション(vln)は、この目標に向けて基礎的かつ学際的な研究テーマであり、自然言語処理、コンピュータビジョン、ロボット工学、機械学習コミュニティから注目を集めている。
本稿では, VLNの新興分野における現代研究を概観し, 課題, 評価指標, 方法等について述べる。
現状の進展と課題の構造化分析を通じて、現在のVLNの限界と今後の仕事の機会を強調します。
本稿では,VLN研究コミュニティの詳細な参考となる。
関連論文リスト
- Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文 参考訳(メタデータ) (2024-02-22T05:45:17Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models [98.72986679502871]
大規模言語モデル(LLM)を利用したチャットシステムが出現し、人工知能(AGI)を実現するための有望な方向へと急速に成長する
しかし、コンピュータビジョン(CV)におけるAGIへの道のりは未だに不明である。
CVアルゴリズムを世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するための事前トレーニングを行い、さまざまなタスクをこなすための命令で微調整するパイプラインを想像する。
論文 参考訳(メタデータ) (2023-06-14T17:15:01Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges [1.565870461096057]
この結果、視覚と言語の統合が多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
論文 参考訳(メタデータ) (2022-12-26T20:56:01Z) - Reasoning about Actions over Visual and Linguistic Modalities: A Survey [39.870773512848096]
知識表現コミュニティでは「行動と変化に関する推論」(RAC)が広く研究されている。
本稿では、既存のタスク、ベンチマークデータセット、様々な技術とモデル、そしてビジョンと言語領域におけるRACの進歩に関するそれぞれのパフォーマンスについて調査する。
論文 参考訳(メタデータ) (2022-07-15T16:15:46Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。