論文の概要: Core Challenges in Embodied Vision-Language Planning
- arxiv url: http://arxiv.org/abs/2106.13948v1
- Date: Sat, 26 Jun 2021 05:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 10:40:36.712895
- Title: Core Challenges in Embodied Vision-Language Planning
- Title(参考訳): 身体的視覚言語計画における中核的課題
- Authors: Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid
Navarro, Jean Oh
- Abstract要約: 本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
- 参考スコア(独自算出の注目度): 9.190245973578698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the areas of multimodal machine learning and artificial
intelligence (AI) have led to the development of challenging tasks at the
intersection of Computer Vision, Natural Language Processing, and Embodied AI.
Whereas many approaches and previous survey pursuits have characterised one or
two of these dimensions, there has not been a holistic analysis at the center
of all three. Moreover, even when combinations of these topics are considered,
more focus is placed on describing, e.g., current architectural methods, as
opposed to also illustrating high-level challenges and opportunities for the
field. In this survey paper, we discuss Embodied Vision-Language Planning
(EVLP) tasks, a family of prominent embodied navigation and manipulation
problems that jointly use computer vision and natural language. We propose a
taxonomy to unify these tasks and provide an in-depth analysis and comparison
of the new and current algorithmic approaches, metrics, simulated environments,
as well as the datasets used for EVLP tasks. Finally, we present the core
challenges that we believe new EVLP works should seek to address, and we
advocate for task construction that enables model generalizability and furthers
real-world deployment.
- Abstract(参考訳): マルチモーダル機械学習と人工知能(AI)の分野での最近の進歩は、コンピュータビジョン、自然言語処理、エンボダイドAIの交差点における挑戦的なタスクの開発につながっている。
多くのアプローチや過去の調査はこれらの次元の1つまたは2つを特徴付けるが、3つの次元の中央に全体論的解析は存在していない。
さらに、これらのトピックの組み合わせが検討されたとしても、例えば現在のアーキテクチャメソッドの記述に重点が置かれており、この分野における高いレベルの課題や機会を示すのとは対照的である。
本稿では,コンピュータビジョンと自然言語を併用した,顕著なナビゲーションと操作の問題群であるEmbodied Vision-Language Planning (EVLP)タスクについて論じる。
我々は,これらのタスクを統一し,新しいアルゴリズムアプローチ,メトリクス,シミュレーション環境,およびevlpタスクに使用されるデータセットの詳細な分析と比較を行う分類法を提案する。
最後に,新しいEVLPの課題として,モデル一般化性の実現と実世界の展開の促進を目的としたタスク構築を提唱する。
関連論文リスト
- Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [95.96983812740683]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Physical Reasoning and Object Planning for Household Embodied Agents [21.719773664308683]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
私たちのコントリビューションには、最初の考慮事項に対処する洞察に富んだObject-Utilityマッピングと、2つの広範なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models [98.72986679502871]
大規模言語モデル(LLM)を利用したチャットシステムが出現し、人工知能(AGI)を実現するための有望な方向へと急速に成長する
しかし、コンピュータビジョン(CV)におけるAGIへの道のりは未だに不明である。
CVアルゴリズムを世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するための事前トレーニングを行い、さまざまなタスクをこなすための命令で微調整するパイプラインを想像する。
論文 参考訳(メタデータ) (2023-06-14T17:15:01Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges [1.565870461096057]
この結果、視覚と言語の統合が多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
論文 参考訳(メタデータ) (2022-12-26T20:56:01Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。