論文の概要: Towards a Foundation Model for Communication Systems
- arxiv url: http://arxiv.org/abs/2505.14603v1
- Date: Tue, 20 May 2025 16:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.592945
- Title: Towards a Foundation Model for Communication Systems
- Title(参考訳): コミュニケーションシステムの基礎モデルに向けて
- Authors: Davide Buffelli, Sowmen Das, Yu-Wei Lin, Sattar Vakili, Chien-Yi Wang, Masoud Attarifar, Pritthijit Nath, Da-shan Shiu,
- Abstract要約: 本研究では,コミュニケーションデータの基礎モデルに向けて一歩踏み出した。
本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。
本研究では,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証する。
- 参考スコア(独自算出の注目度): 16.85529517183343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) has demonstrated unprecedented performance across various domains, and its application to communication systems is an active area of research. While current methods focus on task-specific solutions, the broader trend in AI is shifting toward large general models capable of supporting multiple applications. In this work, we take a step toward a foundation model for communication data--a transformer-based, multi-modal model designed to operate directly on communication data. We propose methodologies to address key challenges, including tokenization, positional embedding, multimodality, variable feature sizes, and normalization. Furthermore, we empirically demonstrate that such a model can successfully estimate multiple features, including transmission rank, selected precoder, Doppler spread, and delay profile.
- Abstract(参考訳): 人工知能(AI)は様々な領域で前例のない性能を示し、その通信システムへの応用は研究の活発な領域である。
現在の手法はタスク固有のソリューションに重点を置いているが、AIのより広範なトレンドは、複数のアプリケーションをサポートすることのできる大規模な汎用モデルへとシフトしつつある。
本研究では,通信データを直接操作するトランスフォーマーベースマルチモーダルモデルである,通信データの基礎モデルに向けて一歩前進する。
本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。
さらに,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証した。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。