論文の概要: Multi-Modal Multi-Task Federated Foundation Models for Next-Generation Extended Reality Systems: Towards Privacy-Preserving Distributed Intelligence in AR/VR/MR
- arxiv url: http://arxiv.org/abs/2506.05683v2
- Date: Wed, 11 Jun 2025 00:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.714556
- Title: Multi-Modal Multi-Task Federated Foundation Models for Next-Generation Extended Reality Systems: Towards Privacy-Preserving Distributed Intelligence in AR/VR/MR
- Title(参考訳): 次世代拡張現実システムのためのマルチモード多タスクフェデレーション基礎モデル:AR/VR/MRにおけるプライバシ保護型分散インテリジェンスを目指して
- Authors: Fardis Nadimi, Payam Abdisarabshali, Kasra Borazjani, Jacob Chakareski, Seyyedali Hosseinalipour,
- Abstract要約: 我々は,マルチモーダルマルチタスク(M3T)フェデレーション基盤モデル(FedFM)が,XRシステムに変換機能を提供することを想定する。
モデルトレーニングとアグリゲーションのための異なる調整パラダイムを必要とするFedFMのモジュラーアーキテクチャを提案する。
この視点は、次世代のXRシステムにおいて、コンテキスト対応のプライバシ保護インテリジェンスのための技術的および概念的な基礎をグラフ化することを目的としている。
- 参考スコア(独自算出の注目度): 12.109032063788417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extended reality (XR) systems, which consist of virtual reality (VR), augmented reality (AR), and mixed reality (XR), offer a transformative interface for immersive, multi-modal, and embodied human-computer interaction. In this paper, we envision that multi-modal multi-task (M3T) federated foundation models (FedFMs) can offer transformative capabilities for XR systems through integrating the representational strength of M3T foundation models (FMs) with the privacy-preserving model training principles of federated learning (FL). We present a modular architecture for FedFMs, which entails different coordination paradigms for model training and aggregations. Central to our vision is the codification of XR challenges that affect the implementation of FedFMs under the SHIFT dimensions: (1) Sensor and modality diversity, (2) Hardware heterogeneity and system-level constraints, (3) Interactivity and embodied personalization, (4) Functional/task variability, and (5) Temporality and environmental variability. We illustrate the manifestation of these dimensions across a set of emerging and anticipated applications of XR systems. Finally, we propose evaluation metrics, dataset requirements, and design tradeoffs necessary for the development of resource-aware FedFMs in XR. This perspective aims to chart the technical and conceptual foundations for context-aware privacy-preserving intelligence in the next generation of XR systems.
- Abstract(参考訳): 拡張現実(VR)、拡張現実(AR)、複合現実(XR)で構成される拡張現実システム(XR)は、没入型、マルチモーダル型、エンボディ型コンピュータインタラクションのための変換インターフェースを提供する。
本稿では,マルチモーダル・マルチタスク(M3T)フェデレーションベースモデル(FedFM)が,M3Tファウンデーションモデル(FM)の表現力と,フェデレーション学習(FL)のプライバシ保護モデルトレーニング原則を統合することで,XRシステムにトランスフォーメーション機能を提供することを想定する。
モデルトレーニングとアグリゲーションのための異なる調整パラダイムを必要とするFedFMのモジュラーアーキテクチャを提案する。
我々のビジョンの中心は,(1) センサとモダリティの多様性,(2) ハードウェアの不均一性とシステムレベルの制約,(3) 対話性と具体化によるパーソナライゼーション,(4) 機能的/タスクの多様性,(5) テンポラリティと環境変動といった,FedFMの実装に影響を与えるXR課題の体系化である。
本稿では,XRシステムの新規および期待された応用の集合にまたがって,これらの次元の顕在化について述べる。
最後に、XRにおけるリソース認識型FedFMの開発に必要な評価指標、データセット要件、設計トレードオフを提案する。
この視点は、次世代のXRシステムにおいて、コンテキスト対応のプライバシ保護インテリジェンスのための技術的および概念的な基礎をグラフ化することを目的としている。
関連論文リスト
- Multi-Modal Multi-Task (M3T) Federated Foundation Models for Embodied AI: Potentials and Challenges for Edge Integration [16.914582808898505]
具体的AIのためのフェデレーションファンデーションモデル(FFM)を紹介する。
統合されたフレームワークの下で、具体化されたAIエコシステムにおけるFFMの重要なデプロイメント次元を収集します。
具体的な課題を特定し、実行可能な研究の方向性を想定する。
論文 参考訳(メタデータ) (2025-05-16T12:49:36Z) - RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。
緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文 参考訳(メタデータ) (2025-04-04T04:47:54Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.549639729808717]
現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:23:12Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。