論文の概要: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2407.07035v1
- Date: Tue, 9 Jul 2024 16:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:17:48.510428
- Title: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
- Title(参考訳): 今日と明日のビジョン・アンド・ランゲージナビゲーション:基礎モデル時代における調査
- Authors: Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi,
- Abstract要約: VLN(Vision-and-Language Navigation)は近年注目を集めている。
基礎モデルは、VLN研究の課題と手法を形作っている。
- 参考スコア(独自算出の注目度): 79.04590934264235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は近年注目され、開発を進めるための多くのアプローチが出現している。
基礎モデルの顕著な成果は、VLN研究の課題と手法を形作っている。
本調査では,計画と推論を具体化するための原則的枠組みを取り入れたトップダウンレビューを実施し,VLNの課題に対処するための基礎モデルを活用した現在の手法と今後の機会を強調した。
深く議論することで、貴重なリソースと洞察が得られることを願っています。一方は、進歩をマイルストンし、この分野の基礎モデルの機会と潜在的な役割を探究し、もう一方は、VLNにおけるさまざまな課題とソリューションを、基礎モデル研究者にまとめることです。
関連論文リスト
- Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities [48.45951497996322]
ファンデーションモデル(STFM)は、人工知能に革命をもたらし、パフォーマンスの新たなベンチマークを設定し、幅広いビジョンと言語タスクにわたる変換機能を実現する。
本稿では,STFMの今後の展望を概説し,その本質的特徴と汎用性について概説する。
我々は,STFMを効果的かつ広範に適用する目的で研究を進める可能性や方向性を探究する。
論文 参考訳(メタデータ) (2025-01-15T08:52:28Z) - How to Enable Effective Cooperation Between Humans and NLP Models: A Survey of Principles, Formalizations, and Beyond [73.5546464126465]
我々は、その原則、形式化、オープンな課題を探求し、人間-モデル協力の徹底的なレビューを行う。
既存のアプローチを要約する統一的な視点を提供する新しい分類法を導入する。
また、潜在的なフロンティア領域とその対応課題についても論じる。
論文 参考訳(メタデータ) (2025-01-10T05:15:14Z) - How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.23394353614928]
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。
事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文 参考訳(メタデータ) (2024-12-11T07:29:04Z) - A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。
本稿では,推論に適応する基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文 参考訳(メタデータ) (2023-12-17T15:16:13Z) - Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。
VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。
FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文 参考訳(メタデータ) (2023-10-09T14:57:05Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Towards Reasoning in Large Language Models: A Survey [11.35055307348939]
大規模な言語モデル(LLM)がどの程度推論できるのかは、まだ明らかになっていない。
本稿では,LLMにおける推論に関する知識の現状を概観する。
論文 参考訳(メタデータ) (2022-12-20T16:29:03Z) - Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions [23.389491536958772]
VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
論文 参考訳(メタデータ) (2022-03-22T16:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。