論文の概要: Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2501.09045v2
- Date: Fri, 07 Feb 2025 02:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:10.265665
- Title: Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities
- Title(参考訳): 時空間モデル:ビジョン,課題,機会
- Authors: Adam Goodge, Wee Siong Ng, Bryan Hooi, See Kiong Ng,
- Abstract要約: ファンデーションモデル(STFM)は、人工知能に革命をもたらし、パフォーマンスの新たなベンチマークを設定し、幅広いビジョンと言語タスクにわたる変換機能を実現する。
本稿では,STFMの今後の展望を概説し,その本質的特徴と汎用性について概説する。
我々は,STFMを効果的かつ広範に適用する目的で研究を進める可能性や方向性を探究する。
- 参考スコア(独自算出の注目度): 48.45951497996322
- License:
- Abstract: Foundation models have revolutionized artificial intelligence, setting new benchmarks in performance and enabling transformative capabilities across a wide range of vision and language tasks. However, despite the prevalence of spatio-temporal data in critical domains such as transportation, public health, and environmental monitoring, spatio-temporal foundation models (STFMs) have not yet achieved comparable success. In this paper, we articulate a vision for the future of STFMs, outlining their essential characteristics and the generalization capabilities necessary for broad applicability. We critically assess the current state of research, identifying gaps relative to these ideal traits, and highlight key challenges that impede their progress. Finally, we explore potential opportunities and directions to advance research towards the aim of effective and broadly applicable STFMs.
- Abstract(参考訳): ファウンデーションモデルは人工知能に革命をもたらし、パフォーマンスに新たなベンチマークを設定し、幅広いビジョンと言語タスクでトランスフォーメーション機能を実現する。
しかし、交通、公衆衛生、環境モニタリングといった重要な領域における時空間データの普及にもかかわらず、時空間基礎モデル(STFM)はまだ同等の成功には至っていない。
本稿では,STFMの今後の展望を述べるとともに,その本質的特徴と適用性の向上に必要な一般化能力について概説する。
研究の現状を批判的に評価し、これらの理想的な特徴に対するギャップを特定し、彼らの進歩を妨げる重要な課題を浮き彫りにします。
最後に,STFMを効果的かつ広範に適用する目的で研究を進める可能性や方向性を探る。
関連論文リスト
- Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z) - Cross-Target Stance Detection: A Survey of Techniques, Datasets, and Challenges [7.242609314791262]
クロスターゲットスタンス検出(クロスターゲットスタンス検出)は、テキストで表現された視点を所定のターゲットに向けて決定するタスクである。
オンラインの視点や意見の分析やマイニングの必要性が高まる中、このタスクは近年大きな関心を集めている。
本総説では,過去10年間の目標間姿勢検出の進歩について検討する。
論文 参考訳(メタデータ) (2024-09-20T15:49:14Z) - Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models [79.04590934264235]
VLN(Vision-and-Language Navigation)は近年注目を集めている。
基礎モデルは、VLN研究の課題と手法を形作っている。
論文 参考訳(メタデータ) (2024-07-09T16:53:36Z) - Large Language Models for Forecasting and Anomaly Detection: A
Systematic Literature Review [10.325003320290547]
本稿では,Large Language Models (LLMs) の予測・異常検出への応用について概説する。
LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。
このレビューでは、膨大な歴史的データセットへの依存、さまざまな文脈における一般化可能性の問題、モデル幻覚の現象など、より広範な採用と有効性を阻害するいくつかの重要な課題を取り上げている。
論文 参考訳(メタデータ) (2024-02-15T22:43:02Z) - The Essential Role of Causality in Foundation World Models for Embodied AI [102.75402420915965]
身体的なAIエージェントは、さまざまな現実世界環境で新しいタスクを実行する能力を必要とします。
現在の基礎モデルは物理的相互作用を正確にモデル化することができないため、Embodied AIには不十分である。
因果関係の研究は、検証世界モデルの構築に寄与する。
論文 参考訳(メタデータ) (2024-02-06T17:15:33Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。
本稿では,推論に適応する基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文 参考訳(メタデータ) (2023-12-17T15:16:13Z) - Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文 参考訳(メタデータ) (2023-12-15T19:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。