論文の概要: AllSpark: a multimodal spatiotemporal general model
- arxiv url: http://arxiv.org/abs/2401.00546v1
- Date: Sun, 31 Dec 2023 17:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:58:39.844974
- Title: AllSpark: a multimodal spatiotemporal general model
- Title(参考訳): AllSpark:マルチモーダル時空間一般モデル
- Authors: Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang, YanSheng Li,
Yu Liu, Yong Tang, Dapeng Liu, Shizhong Yang, Jiayi Ma, Haifeng Li
- Abstract要約: マルチモーダル統一モデルを構成する基本原理であるLanguage as Reference Framework(LaRF)を紹介する。
我々はAllSparkと呼ばれるマルチモーダル時間的汎用人工知能モデルを提案する。
我々のモデルは、13の異なるモダリティを1D(テキスト、コード)、2D(RGB、斜め、赤外線、マルチスペクトル、ハイパースペクトル)、テーブル、グラフ、クラウド、ビデオなど統合されたフレームワークに統合します。
- 参考スコア(独自算出の注目度): 37.05922712233604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a long time, due to the high heterogeneity in structure and semantics
among various spatiotemporal modal data, the joint interpretation of multimodal
spatiotemporal data has been an extremely challenging problem. The primary
challenge resides in striking a trade-off between the cohesion and autonomy of
diverse modalities, and this trade-off exhibits a progressively nonlinear
nature as the number of modalities expands. We introduce the Language as
Reference Framework (LaRF), a fundamental principle for constructing a
multimodal unified model, aiming to strike a trade-off between the cohesion and
autonomy among different modalities. We propose a multimodal spatiotemporal
general artificial intelligence model, called AllSpark. Our model integrates
thirteen different modalities into a unified framework, including 1D (text,
code), 2D (RGB, infrared, SAR, multispectral, hyperspectral, tables, graphs,
trajectory, oblique photography), and 3D (point clouds, videos) modalities. To
achieve modal cohesion, AllSpark uniformly maps diverse modal features to the
language modality. In addition, we design modality-specific prompts to guide
multi-modal large language models in accurately perceiving multimodal data. To
maintain modality autonomy, AllSpark introduces modality-specific encoders to
extract the tokens of various spatiotemporal modalities. And modal bridge is
employed to achieve dimensional projection from each modality to the language
modality. Finally, observing a gap between the model's interpretation and
downstream tasks, we designed task heads to enhance the model's generalization
capability on specific downstream tasks. Experiments indicate that AllSpark
achieves competitive accuracy in modalities such as RGB and trajectory compared
to state-of-the-art models.
- Abstract(参考訳): 様々な時空間モーダルデータにおける構造と意味の多様性が高いため、多モード時空間データの合同解釈は、長い間、非常に困難な問題であった。
主な課題は、様々なモダリティの凝集と自律性の間のトレードオフを打破することであり、このトレードオフはモダリティの数が増えるにつれて徐々に非線形な性質を示す。
言語・アズ・レファレンス・フレームワーク(LaRF)は多モーダル統一モデルを構築するための基本原理であり、異なるモダリティ間の凝集と自律性のトレードオフを打つことを目的としている。
我々はAllSparkと呼ばれるマルチモーダル時空間汎用人工知能モデルを提案する。
1D(テキスト,コード),2D(RGB,赤外線,SAR,マルチスペクトル,ハイパースペクトル,テーブル,グラフ,軌跡,斜め撮影),3D(ポイントクラウド,ビデオ)モダリティなど,13種類のモダリティを統一されたフレームワークに統合する。
モーダル結合を達成するため、AllSparkは様々なモーダル特徴を言語モーダルに一様にマッピングする。
さらに,マルチモーダルデータを正確に知覚するマルチモーダル大規模言語モデルのためのモーダリティ固有プロンプトの設計を行った。
モダリティの自律性を維持するため、AllSparkは様々な時空間モードのトークンを抽出するモダリティ固有のエンコーダを導入した。
モーダルブリッジは、各モーダルから言語モーダルへの次元投影を実現するために用いられる。
最後に、モデルの解釈と下流タスクのギャップを観察し、特定の下流タスクにおけるモデルの一般化能力を高めるためにタスクヘッドを設計した。
実験により、AllSparkは、最先端モデルと比較して、RGBやトラジェクトリのようなモダリティの競争精度を達成していることが示された。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。