Fugu-MT 論文翻訳(概要): Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

論文の概要: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models

arxiv url: http://arxiv.org/abs/2407.07035v1
Date: Tue, 9 Jul 2024 16:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 17:17:48.510428
Title: Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
Title（参考訳）: 今日と明日のビジョン・アンド・ランゲージナビゲーション:基礎モデル時代における調査
Authors: Yue Zhang, Ziqiao Ma, Jialu Li, Yanyuan Qiao, Zun Wang, Joyce Chai, Qi Wu, Mohit Bansal, Parisa Kordjamshidi,
Abstract要約: VLN(Vision-and-Language Navigation)は近年注目を集めている。基礎モデルは、VLN研究の課題と手法を形作っている。
参考スコア（独自算出の注目度）: 79.04590934264235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.
Abstract（参考訳）: VLN(Vision-and-Language Navigation)は近年注目され、開発を進めるための多くのアプローチが出現している。基礎モデルの顕著な成果は、VLN研究の課題と手法を形作っている。本調査では,計画と推論を具体化するための原則的枠組みを取り入れたトップダウンレビューを実施し,VLNの課題に対処するための基礎モデルを活用した現在の手法と今後の機会を強調した。深く議論することで、貴重なリソースと洞察が得られることを願っています。一方は、進歩をマイルストンし、この分野の基礎モデルの機会と潜在的な役割を探究し、もう一方は、VLNにおけるさまざまな課題とソリューションを、基礎モデル研究者にまとめることです。

関連論文リスト

Foundation Models for Trajectory Planning in Autonomous Driving: A Review of Progress and Open Challenges [53.47232506143113]
マルチモーダル・ファンデーション・モデルは自動運転技術に変化をもたらした。我々はこのような手法を統一分類学を通して総合的に検討する。ソースコードとデータセットのオープン性に関して,これらのアプローチを評価する。
論文参考訳（メタデータ） (2025-10-31T18:05:02Z)
Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities [48.45951497996322]
ファンデーションモデル(STFM)は、人工知能に革命をもたらし、パフォーマンスの新たなベンチマークを設定し、幅広いビジョンと言語タスクにわたる変換機能を実現する。本稿では,STFMの今後の展望を概説し,その本質的特徴と汎用性について概説する。我々は,STFMを効果的かつ広範に適用する目的で研究を進める可能性や方向性を探究する。
論文参考訳（メタデータ） (2025-01-15T08:52:28Z)
How to Enable Effective Cooperation Between Humans and NLP Models: A Survey of Principles, Formalizations, and Beyond [73.5546464126465]
我々は、その原則、形式化、オープンな課題を探求し、人間-モデル協力の徹底的なレビューを行う。既存のアプローチを要約する統一的な視点を提供する新しい分類法を導入する。また、潜在的なフロンティア領域とその対応課題についても論じる。
論文参考訳（メタデータ） (2025-01-10T05:15:14Z)
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.23394353614928]
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文参考訳（メタデータ） (2024-12-11T07:29:04Z)
A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。 DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文参考訳（メタデータ） (2024-10-21T02:27:24Z)
Empowering Time Series Analysis with Foundation Models: A Comprehensive Survey [32.794229758722985]
時系列データは、様々な現実世界のアプリケーションに分散している。従来のアプローチは主にタスク固有のもので、限られた機能と低転送性を提供します。ファンデーションモデルは、その顕著なクロスタスク転送可能性によって、NLPとCVに革命をもたらした。
論文参考訳（メタデータ） (2024-05-03T03:12:55Z)
Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects [84.36935309169567]
ゼロショット学習(ZSL)における微粒化解析の最近の進歩を概観する。まず、各カテゴリの詳細な分析を行い、既存の手法と手法の分類について述べる。次に、ベンチマークを要約し、公開データセット、モデル、実装、およびライブラリとしての詳細について説明する。
論文参考訳（メタデータ） (2024-01-31T11:51:24Z)
A Survey on 3D Skeleton Based Person Re-Identification: Approaches, Designs, Challenges, and Future Directions [71.99165135905827]
3Dスケルトンによる人物の再識別は、パターン認識コミュニティに大きな関心を惹きつける重要な研究分野である。多くのアプリケーションシナリオにおいて顕著なアドバンテージを持つ3Dスケルトンに基づく人物再同定手法が近年提案されている。本稿では,現在のSRIDアプローチ,モデル設計,課題,今後の方向性を体系的に調査する。
論文参考訳（メタデータ） (2024-01-27T04:52:24Z)
A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。本稿では,推論に適応する基礎モデルを提案する。次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文参考訳（メタデータ） (2023-12-17T15:16:13Z)
Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。 VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。 FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文参考訳（メタデータ） (2023-10-09T14:57:05Z)
Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文参考訳（メタデータ） (2023-09-24T15:34:56Z)
Towards Reasoning in Large Language Models: A Survey [11.35055307348939]
大規模な言語モデル(LLM)がどの程度推論できるのかは、まだ明らかになっていない。本稿では,LLMにおける推論に関する知識の現状を概観する。
論文参考訳（メタデータ） (2022-12-20T16:29:03Z)
Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions [23.389491536958772]
VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。 VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。本稿では,VLN研究コミュニティの詳細な参照として機能する。
論文参考訳（メタデータ） (2022-03-22T16:58:10Z)
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends [41.07256031348454]
本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。タスクの定式化におけるその応用と、意味認識やコンテンツ生成に関する様々な問題を解決する方法について検討する。私たちは、この領域をよりモジュール的で透明なインテリジェントなシステムに向け、過去に現れた、多分野のパターンと洞察に光を当てました。
論文参考訳（メタデータ） (2020-10-19T13:55:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。