Fugu-MT 論文翻訳(概要): AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities

論文の概要: AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities

arxiv url: http://arxiv.org/abs/2401.00546v2
Date: Sun, 25 Feb 2024 09:18:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:50:04.424873
Title: AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Thirteen Modalities
Title（参考訳）: AllSpark:13のモダリティを備えたマルチモーダル時空間汎用インテリジェンスモデル
Authors: Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang, YanSheng Li, Yu Liu, Yong Tang, Dapeng Liu, Shizhong Yang, Haifeng Li
Abstract要約: マルチモーダル統一モデルを構成する基本原理であるLanguage as Reference Framework(LaRF)を紹介する。我々はAllSparkと呼ばれるマルチモーダル時間的汎用人工知能モデルを提案する。我々のモデルは、13の異なるモダリティを1D(テキスト、コード)、2D(RGB、斜め、赤外線、マルチスペクトル、ハイパースペクトル)、テーブル、グラフ、クラウド、ビデオなど統合されたフレームワークに統合します。
参考スコア（独自算出の注目度）: 21.735142277761383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For a long time, due to the high heterogeneity in structure and semantics among various spatiotemporal modal data, the joint interpretation of multimodal spatiotemporal data has been an extremely challenging problem. The primary challenge resides in striking a trade-off between the cohesion and autonomy of diverse modalities, and this trade-off exhibits a progressively nonlinear nature as the number of modalities expands. We introduce the Language as Reference Framework (LaRF), a fundamental principle for constructing a multimodal unified model, aiming to strike a trade-off between the cohesion and autonomy among different modalities. We propose a multimodal spatiotemporal general artificial intelligence model, called AllSpark. Our model integrates thirteen different modalities into a unified framework, including 1D (text, code), 2D (RGB, infrared, SAR, multispectral, hyperspectral, tables, graphs, trajectory, oblique photography), and 3D (point clouds, videos) modalities. To achieve modal cohesion, AllSpark uniformly maps diverse modal features to the language modality. In addition, we design modality-specific prompts to guide multi-modal large language models in accurately perceiving multimodal data. To maintain modality autonomy, AllSpark introduces modality-specific encoders to extract the tokens of various spatiotemporal modalities. And modal bridge is employed to achieve dimensional projection from each modality to the language modality. Finally, observing a gap between the model's interpretation and downstream tasks, we designed task heads to enhance the model's generalization capability on specific downstream tasks. Experiments indicate that AllSpark achieves competitive accuracy in modalities such as RGB and trajectory compared to state-of-the-art models.
Abstract（参考訳）: 様々な時空間モーダルデータにおける構造と意味の多様性が高いため、多モード時空間データの合同解釈は、長い間、非常に困難な問題であった。主な課題は、様々なモダリティの凝集と自律性の間のトレードオフを打破することであり、このトレードオフはモダリティの数が増えるにつれて徐々に非線形な性質を示す。言語・アズ・レファレンス・フレームワーク(LaRF)は多モーダル統一モデルを構築するための基本原理であり、異なるモダリティ間の凝集と自律性のトレードオフを打つことを目的としている。我々はAllSparkと呼ばれるマルチモーダル時空間汎用人工知能モデルを提案する。 1D(テキスト,コード),2D(RGB,赤外線,SAR,マルチスペクトル,ハイパースペクトル,テーブル,グラフ,軌跡,斜め撮影),3D(ポイントクラウド,ビデオ)モダリティなど,13種類のモダリティを統一されたフレームワークに統合する。モーダル結合を達成するため、AllSparkは様々なモーダル特徴を言語モーダルに一様にマッピングする。さらに,マルチモーダルデータを正確に知覚するマルチモーダル大規模言語モデルのためのモーダリティ固有プロンプトの設計を行った。モダリティの自律性を維持するため、AllSparkは様々な時空間モードのトークンを抽出するモダリティ固有のエンコーダを導入した。モーダルブリッジは、各モーダルから言語モーダルへの次元投影を実現するために用いられる。最後に、モデルの解釈と下流タスクのギャップを観察し、特定の下流タスクにおけるモデルの一般化能力を高めるためにタスクヘッドを設計した。実験により、AllSparkは、最先端モデルと比較して、RGBやトラジェクトリのようなモダリティの競争精度を達成していることが示された。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.72389428177942]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文参考訳（メタデータ） (2025-02-06T18:59:55Z)
IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文参考訳（メタデータ） (2024-08-23T08:10:13Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。 4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T03:34:38Z)
GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文参考訳（メタデータ） (2024-06-26T03:41:48Z)
Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
GroundingGPT:Language Enhanced Multi-modal Grounding Model [15.44099961048236]
言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。提案モデルでは,入力中の局所情報の詳細な理解を求めるタスクを抽出する。ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。
論文参考訳（メタデータ） (2024-01-11T17:41:57Z)
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。 MMoEは様々な種類のモデルに適用でき、改善できる。
論文参考訳（メタデータ） (2023-11-16T05:31:21Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文参考訳（メタデータ） (2023-10-30T17:58:09Z)
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文参考訳（メタデータ） (2023-09-14T15:34:01Z)
ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。 ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文参考訳（メタデータ） (2023-05-25T14:34:08Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文参考訳（メタデータ） (2022-05-25T10:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。