論文の概要: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2407.07035v1
- Date: Tue, 9 Jul 2024 16:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:17:48.510428
- Title: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
- Title(参考訳): 今日と明日のビジョン・アンド・ランゲージナビゲーション:基礎モデル時代における調査
- Authors: Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi,
- Abstract要約: VLN(Vision-and-Language Navigation)は近年注目を集めている。
基礎モデルは、VLN研究の課題と手法を形作っている。
- 参考スコア(独自算出の注目度): 79.04590934264235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は近年注目され、開発を進めるための多くのアプローチが出現している。
基礎モデルの顕著な成果は、VLN研究の課題と手法を形作っている。
本調査では,計画と推論を具体化するための原則的枠組みを取り入れたトップダウンレビューを実施し,VLNの課題に対処するための基礎モデルを活用した現在の手法と今後の機会を強調した。
深く議論することで、貴重なリソースと洞察が得られることを願っています。一方は、進歩をマイルストンし、この分野の基礎モデルの機会と潜在的な役割を探究し、もう一方は、VLNにおけるさまざまな課題とソリューションを、基礎モデル研究者にまとめることです。
関連論文リスト
- Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects [84.36935309169567]
ゼロショット学習(ZSL)における微粒化解析の最近の進歩を概観する。
まず、各カテゴリの詳細な分析を行い、既存の手法と手法の分類について述べる。
次に、ベンチマークを要約し、公開データセット、モデル、実装、およびライブラリとしての詳細について説明する。
論文 参考訳(メタデータ) (2024-01-31T11:51:24Z) - A Survey on 3D Skeleton Based Person Re-Identification: Approaches,
Designs, Challenges, and Future Directions [71.99165135905827]
3Dスケルトンによる人物の再識別は、パターン認識コミュニティに大きな関心を惹きつける重要な研究分野である。
多くのアプリケーションシナリオにおいて顕著なアドバンテージを持つ3Dスケルトンに基づく人物再同定手法が近年提案されている。
本稿では,現在のSRIDアプローチ,モデル設計,課題,今後の方向性を体系的に調査する。
論文 参考訳(メタデータ) (2024-01-27T04:52:24Z) - A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。
本稿では,推論に適応する基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文 参考訳(メタデータ) (2023-12-17T15:16:13Z) - Federated Learning for Generalization, Robustness, Fairness: A Survey
and Benchmark [55.898771405172155]
フェデレートラーニングは、異なる当事者間のプライバシー保護コラボレーションのための有望なパラダイムとして登場した。
我々は,連合学習研究の重要かつ最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2023-11-12T06:32:30Z) - Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。
VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。
FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文 参考訳(メタデータ) (2023-10-09T14:57:05Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Towards Reasoning in Large Language Models: A Survey [11.35055307348939]
大規模な言語モデル(LLM)がどの程度推論できるのかは、まだ明らかになっていない。
本稿では,LLMにおける推論に関する知識の現状を概観する。
論文 参考訳(メタデータ) (2022-12-20T16:29:03Z) - Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions [23.389491536958772]
VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
論文 参考訳(メタデータ) (2022-03-22T16:58:10Z) - Multimodal Research in Vision and Language: A Review of Current and
Emerging Trends [41.07256031348454]
本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。
タスクの定式化におけるその応用と、意味認識やコンテンツ生成に関する様々な問題を解決する方法について検討する。
私たちは、この領域をよりモジュール的で透明なインテリジェントなシステムに向け、過去に現れた、多分野のパターンと洞察に光を当てました。
論文 参考訳(メタデータ) (2020-10-19T13:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。