Fugu-MT 論文翻訳(概要): Towards a Foundation Model for Communication Systems

論文の概要: Towards a Foundation Model for Communication Systems

arxiv url: http://arxiv.org/abs/2505.14603v1
Date: Tue, 20 May 2025 16:52:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.592945
Title: Towards a Foundation Model for Communication Systems
Title（参考訳）: コミュニケーションシステムの基礎モデルに向けて
Authors: Davide Buffelli, Sowmen Das, Yu-Wei Lin, Sattar Vakili, Chien-Yi Wang, Masoud Attarifar, Pritthijit Nath, Da-shan Shiu,
Abstract要約: 本研究では,コミュニケーションデータの基礎モデルに向けて一歩踏み出した。本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。本研究では,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証する。
参考スコア（独自算出の注目度）: 16.85529517183343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial Intelligence (AI) has demonstrated unprecedented performance across various domains, and its application to communication systems is an active area of research. While current methods focus on task-specific solutions, the broader trend in AI is shifting toward large general models capable of supporting multiple applications. In this work, we take a step toward a foundation model for communication data--a transformer-based, multi-modal model designed to operate directly on communication data. We propose methodologies to address key challenges, including tokenization, positional embedding, multimodality, variable feature sizes, and normalization. Furthermore, we empirically demonstrate that such a model can successfully estimate multiple features, including transmission rank, selected precoder, Doppler spread, and delay profile.
Abstract（参考訳）: 人工知能(AI)は様々な領域で前例のない性能を示し、その通信システムへの応用は研究の活発な領域である。現在の手法はタスク固有のソリューションに重点を置いているが、AIのより広範なトレンドは、複数のアプリケーションをサポートすることのできる大規模な汎用モデルへとシフトしつつある。本研究では,通信データを直接操作するトランスフォーマーベースマルチモーダルモデルである,通信データの基礎モデルに向けて一歩前進する。本稿では,トークン化,位置埋め込み,マルチモーダリティ,可変特徴量,正規化など,重要な課題に対処する手法を提案する。さらに,送信ランク,選択したプリコーダ,ドップラー拡散,遅延プロファイルなど,複数の特徴を推定できることを実証的に実証した。

関連論文リスト

MMSense: Adapting Vision-based Foundation Model for Multi-task Multi-modal Wireless Sensing [7.577654996150275]
MMSenseは統合無線センシングのためのマルチモーダル・マルチタスク基礎モデルである。我々のフレームワークは、画像、レーダー、LiDAR、テキストデータを視覚に適合する表現に変換することで統合する。モダリティゲーティング・メカ・ニムはこれらの表現を適応的に融合させ、視覚ベースの大きな言語モデルバックボーンは特徴整合化を可能にする。
論文参考訳（メタデータ） (2025-11-15T17:35:39Z)
Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration [9.66105329596482]
推論の特定のモダリティを目標にすることなく、様々なタスクを一般化できる新しいマルチモーダル・コラーニングフレームワークを提案する。我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
論文参考訳（メタデータ） (2025-10-22T13:29:32Z)
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
A Wireless Foundation Model for Multi-Task Prediction [50.21098141769079]
多様な予測区間をサポートする無線ネットワークにおけるマルチタスク予測のための統合基盤モデルを提案する。大規模データセットをトレーニングした後、提案した基礎モデルは、新しいタスクにおいて、目に見えないシナリオとゼロショットのパフォーマンスに強力な一般化を示す。
論文参考訳（メタデータ） (2025-07-08T12:37:55Z)
Communication-Efficient Module-Wise Federated Learning for Grasp Pose Detection in Cluttered Environments [10.63791848873399]
本稿では,Graspのポーズ検出のためのモジュールワイド・フェデレート・ラーニング(FL)フレームワークを提案する。 FLはプライバシ保護ソリューションを提供するが、そのGPDへの応用は、大規模なモデルの通信オーバーヘッドによって妨げられている。本研究は、分散化方式で、堅牢で一般化されたGPDモデルを訓練するための通信効率のよいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T10:40:49Z)
GTS-LUM: Reshaping User Behavior Modeling with LLMs in Telecommunications Industry [11.596473714612955]
GTS-LUMは、通信環境におけるモデリングパラダイムを再定義する、新しいユーザ行動モデルである。 GTS-LUMは(マルチモーダルな)エンコーダアダプタ-LLMデコーダアーキテクチャを採用しており、いくつかのテレコム固有の革新で拡張されている。
論文参考訳（メタデータ） (2025-04-09T01:12:07Z)
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。 1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文参考訳（メタデータ） (2025-01-30T18:59:36Z)
HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文参考訳（メタデータ） (2024-07-03T18:00:48Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。 PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文参考訳（メタデータ） (2023-02-23T18:59:05Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。