論文の概要: Towards a Foundation Model for Communication Systems
- arxiv url: http://arxiv.org/abs/2505.14603v1
- Date: Tue, 20 May 2025 16:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.592945
- Title: Towards a Foundation Model for Communication Systems
- Title(参考訳): コミュニケーションシステムの基礎モデルに向けて
- Authors: Davide Buffelli, Sowmen Das, Yu-Wei Lin, Sattar Vakili, Chien-Yi Wang, Masoud Attarifar, Pritthijit Nath, Da-shan Shiu,
- Abstract要約: 本研究では,コミュニケーションデータの基礎モデルに向けて一歩踏み出した。
本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。
本研究では,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証する。
- 参考スコア(独自算出の注目度): 16.85529517183343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) has demonstrated unprecedented performance across various domains, and its application to communication systems is an active area of research. While current methods focus on task-specific solutions, the broader trend in AI is shifting toward large general models capable of supporting multiple applications. In this work, we take a step toward a foundation model for communication data--a transformer-based, multi-modal model designed to operate directly on communication data. We propose methodologies to address key challenges, including tokenization, positional embedding, multimodality, variable feature sizes, and normalization. Furthermore, we empirically demonstrate that such a model can successfully estimate multiple features, including transmission rank, selected precoder, Doppler spread, and delay profile.
- Abstract(参考訳): 人工知能(AI)は様々な領域で前例のない性能を示し、その通信システムへの応用は研究の活発な領域である。
現在の手法はタスク固有のソリューションに重点を置いているが、AIのより広範なトレンドは、複数のアプリケーションをサポートすることのできる大規模な汎用モデルへとシフトしつつある。
本研究では,通信データを直接操作するトランスフォーマーベースマルチモーダルモデルである,通信データの基礎モデルに向けて一歩前進する。
本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。
さらに,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証した。
関連論文リスト
- A Wireless Foundation Model for Multi-Task Prediction [50.21098141769079]
多様な予測区間をサポートする無線ネットワークにおけるマルチタスク予測のための統合基盤モデルを提案する。
大規模データセットをトレーニングした後、提案した基礎モデルは、新しいタスクにおいて、目に見えないシナリオとゼロショットのパフォーマンスに強力な一般化を示す。
論文 参考訳(メタデータ) (2025-07-08T12:37:55Z) - Communication-Efficient Module-Wise Federated Learning for Grasp Pose Detection in Cluttered Environments [10.63791848873399]
本稿では,Graspのポーズ検出のためのモジュールワイド・フェデレート・ラーニング(FL)フレームワークを提案する。
FLはプライバシ保護ソリューションを提供するが、そのGPDへの応用は、大規模なモデルの通信オーバーヘッドによって妨げられている。
本研究は、分散化方式で、堅牢で一般化されたGPDモデルを訓練するための通信効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T10:40:49Z) - GTS-LUM: Reshaping User Behavior Modeling with LLMs in Telecommunications Industry [11.596473714612955]
GTS-LUMは、通信環境におけるモデリングパラダイムを再定義する、新しいユーザ行動モデルである。
GTS-LUMは(マルチモーダルな)エンコーダアダプタ-LLMデコーダアーキテクチャを採用しており、いくつかのテレコム固有の革新で拡張されている。
論文 参考訳(メタデータ) (2025-04-09T01:12:07Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。