論文の概要: Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model
Challenge of Intelligent Transportation
- arxiv url: http://arxiv.org/abs/2304.06051v1
- Date: Wed, 12 Apr 2023 04:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:46:49.662734
- Title: Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model
Challenge of Intelligent Transportation
- Title(参考訳): open-transmind:1st foundation model challenge of intelligent transportationの新しいベースラインとベンチマーク
- Authors: Yifeng Shi and Feng Lv and Xinliang Wang and Chunlong Xia and Shaojie
Li and Shujie Yang and Teng Xi and Gang Zhang
- Abstract要約: 第1回ファンデーションモデルチャレンジは、交通シナリオにおけるファンデーションモデル技術の人気を高めることを目的としている。
課題は、オールインワンとクロスモーダル画像検索の2つのトラックに分けられる。
私たちの知る限り、Open-TransMindはマルチタスクとマルチモーダル機能を備えた最初のオープンソーストランスポート基盤モデルです。
- 参考スコア(独自算出の注目度): 11.0175635192767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous improvement of computing power and deep learning
algorithms in recent years, the foundation model has grown in popularity.
Because of its powerful capabilities and excellent performance, this technology
is being adopted and applied by an increasing number of industries. In the
intelligent transportation industry, artificial intelligence faces the
following typical challenges: few shots, poor generalization, and a lack of
multi-modal techniques. Foundation model technology can significantly alleviate
the aforementioned issues. To address these, we designed the 1st Foundation
Model Challenge, with the goal of increasing the popularity of foundation model
technology in traffic scenarios and promoting the rapid development of the
intelligent transportation industry. The challenge is divided into two tracks:
all-in-one and cross-modal image retrieval. Furthermore, we provide a new
baseline and benchmark for the two tracks, called Open-TransMind. According to
our knowledge, Open-TransMind is the first open-source transportation
foundation model with multi-task and multi-modal capabilities. Simultaneously,
Open-TransMind can achieve state-of-the-art performance on detection,
classification, and segmentation datasets of traffic scenarios. Our source code
is available at https://github.com/Traffic-X/Open-TransMind.
- Abstract(参考訳): 近年、コンピューティングパワーとディープラーニングアルゴリズムの継続的な改善により、基盤モデルの人気が高まっている。
その強力な能力と優れた性能のために、この技術はますます多くの産業で採用され応用されている。
インテリジェントな輸送業界では、人工知能は次のような典型的な課題に直面している。
基礎モデル技術は上記の問題を著しく緩和することができる。
そこで我々は,交通シナリオにおけるファンデーションモデル技術の普及と,知的交通産業の急速な発展を目標として,第1回ファンデーションモデルチャレンジを設計した。
課題は、オールインワンとクロスモーダル画像検索の2つのトラックに分けられる。
さらに、Open-TransMindと呼ばれる2つのトラックの新しいベースラインとベンチマークも提供します。
私たちの知る限り、Open-TransMindはマルチタスクとマルチモーダル機能を備えた最初のオープンソーストランスポート基盤モデルです。
同時にOpen-TransMindは、トラフィックシナリオの検出、分類、セグメンテーションデータセットにおける最先端のパフォーマンスを達成することができる。
ソースコードはhttps://github.com/Traffic-X/Open-TransMind.comで公開しています。
関連論文リスト
- GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems [10.310791311301962]
本稿では,大規模言語モデル (LLM) と新生検索・拡張生成技術 (RAG) の変換可能性について検討する。
本稿では,スマートモビリティサービスをインテリジェントかつ対話的に提供可能なマルチエージェントシステムの開発を目的とした概念的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T16:14:42Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Open-TI: Open Traffic Intelligence with Augmented Language Model [23.22301632003752]
Open-TIは、チューリング識別可能なトラフィックインテリジェンスを目標とする革新的なモデルである。
ゼロから徹底的な交通分析を行うことができる最初の方法である。
Open-TIは、トレーニングや交通信号制御ポリシーの適用といったタスク固有の実施を可能にする。
論文 参考訳(メタデータ) (2023-12-30T11:50:11Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。
X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文 参考訳(メタデータ) (2021-08-18T16:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。