Fugu-MT 論文翻訳(概要): Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding

論文の概要: Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding

arxiv url: http://arxiv.org/abs/2603.02470v1
Date: Mon, 02 Mar 2026 23:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.575674
Title: Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding
Title（参考訳）: Video TokenCom: UEPに基づく適応型ソースチャネル符号化によるテキスト入力型マルチレートビデオトークン通信
Authors: Jingxuan Men, Mahdi Boloursaz Mashhadi, Ning Wang, Yi Ma, Mike Nilsson, Rahim Tafazolli,
Abstract要約: Token Communication(TokenCom)は、大規模AIモデル(LAM)とマルチモーダル大規模言語モデル(MLLM)の成功に動機付けられた、新しいパラダイムである。本稿では,テキスト指向型マルチレートビデオ通信のための新しいVideo TokenComフレームワークを提案する。
参考スコア（独自算出の注目度）: 24.169863403324314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Token Communication (TokenCom) is a new paradigm, motivated by the recent success of Large AI Models (LAMs) and Multimodal Large Language Models (MLLMs), where tokens serve as unified units of communication and computation, enabling efficient semantic- and goal-oriented information exchange in future wireless networks. In this paper, we propose a novel Video TokenCom framework for textual intent-guided multi-rate video communication with Unequal Error Protection (UEP)-based source-channel coding adaptation. The proposed framework integrates user-intended textual descriptions with discrete video tokenization and unequal error protection to enhance semantic fidelity under restrictive bandwidth constraints. First, discrete video tokens are extracted through a pretrained video tokenizer, while text-conditioned vision-language modeling and optical-flow propagation are jointly used to identify tokens that correspond to user-intended semantics across space and time. Next, we introduce a semantic-aware multi-rate bit-allocation strategy, in which tokens highly related to the user intent are encoded using full codebook precision, whereas non-intended tokens are represented through reduced codebook precision differential encoding, enabling rate savings while preserving semantic quality. Finally, a source and channel coding adaptation scheme is developed to adapt bit allocation and channel coding to varying resources and link conditions. Experiments on various video datasets demonstrate that the proposed framework outperforms both conventional and semantic communication baselines, in perceptual and semantic quality on a wide SNR range.
Abstract（参考訳）: Token Communication (TokenCom)は、Large AI Models (LAMs) とMultimodal Large Language Models (MLLMs) が最近成功し、トークンが通信と計算の統一単位として機能し、将来の無線ネットワークにおける効率的なセマンティックおよびゴール指向の情報交換を可能にする新しいパラダイムである。本稿では,Unequal Error Protection (UEP) を用いたテキストインテント誘導マルチレートビデオ通信のための新しい Video TokenCom フレームワークを提案する。提案フレームワークは,ユーザ意図のテキスト記述を離散的ビデオトークン化と不等なエラー保護と統合し,制約付き帯域制約下での意味的忠実度を高める。まず、事前訓練されたビデオトークンから離散的なビデオトークンを抽出し、テキスト条件付き視覚言語モデリングと光フロー伝搬を共同で使用し、空間と時間にまたがるユーザ意図のセマンティクスに対応するトークンを識別する。次に、ユーザ意図に高い関連性を持つトークンを全コードブック精度で符号化するセマンティック・アウェア・マルチレート・ビット割り当て戦略を導入し、非意図のトークンはコードブック精度の低下によって表現され、セマンティックな品質を維持しながらレートセーブが可能となる。最後に、様々なリソースやリンク条件にビット割り当てとチャネル符号化を適用するために、ソースおよびチャネル符号化適応スキームを開発した。様々なビデオデータセットの実験により,提案フレームワークは,広帯域SNRにおける知覚的・意味的品質において,従来のコミュニケーションベースラインと意味的コミュニケーションベースラインの両方を上回っていることが示された。

関連論文リスト

Decoupling Vision and Language: Codebook Anchored Visual Adaptation [20.393987361723724]
LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換する。既存のアダプティブメソッドは、プロジェクタチューニングやその他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の連続的な機能インターフェースを変更する。 CRAFTは,視覚表現を安定なトークン空間に固定する離散コードブックを用いて,エンコーダを微調整する軽量な手法である。
論文参考訳（メタデータ） (2026-02-23T02:39:26Z)
Wireless TokenCom: RL-Based Tokenizer Agreement for Multi-User Wireless Token Communications [59.84545048095092]
Token Communications (TokenCom) は、トークンが通信計算の統一単位である効果的な新しいパラダイムとして最近登場した。基地局が複数のユーザを送信するマルチユーザダウンリンク無線TokenComシナリオについて検討する。
論文参考訳（メタデータ） (2026-02-12T19:00:33Z)
Context-Aware Iterative Token Detection and Masked Transmission for Wireless Token Communication [20.850802765685145]
送信機(Tx)と受信機(Rx)の共用コンテキスト確率モデルを用いたコンテキスト対応トークン通信フレームワークを提案する。我々は、高い予測可能なトークン送信をスキップして送信率を減少させるコンテキスト対応マスキング戦略を導入する。
論文参考訳（メタデータ） (2026-01-25T10:10:51Z)
Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-12-23T10:48:43Z)
Joint Semantic-Channel Coding and Modulation for Token Communications [37.814311208185906]
トークン通信の問題点を考察し,トークンを効率よく確実に送信する方法について考察する。本稿では,トークンエンコーダとポイントトークンを標準デジタルコンステレーションポイントにマッピングする共同セマンティックチャネルと変調方式を提案する。提案手法は,ジョイント・セマンティック・チャネル・コーディングと従来の分離符号化の両方に優れる。
論文参考訳（メタデータ） (2025-11-19T18:56:32Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Adaptive Semantic Token Selection for AI-native Goal-oriented Communications [11.92172357956248]
本稿では,AIネイティブな目標指向通信のための新しい設計を提案する。我々は、帯域幅と計算量に対する動的推論制約の下でトランスフォーマーニューラルネットワークを利用する。提案手法は,最先端のトークン選択機構よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-25T13:49:50Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。