Fugu-MT 論文翻訳(概要): TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

論文の概要: TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

arxiv url: http://arxiv.org/abs/2603.00482v1
Date: Sat, 28 Feb 2026 05:52:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.219301
Title: TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications
Title（参考訳）: TokenCom:マルチモーダル通信とマルチタスク通信のためのビジョン言語モデル
Authors: Feibo Jiang, Siwei Tu, Li Dong, Xiaolong Li, Kezhi Wang, Cunhua Pan, Zhu Han, Jiangzhou Wang,
Abstract要約: TaiChiはトークン通信用に設計された新しいVLMフレームワークである。バイラテラル・アテンション・ネットワーク(BAN)は、マルチスケールの視覚トークンをインテリジェントに融合するために導入された。学習可能なアクティベーション関数を持つコルモゴロフ・アーノルドネットワーク(KAN)ベースのモジュラリティプロジェクタを用いて正確な非線形アライメントを実現する。
参考スコア（独自算出の注目度）: 83.27113284973684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-Language Models (VLMs), with their strong capabilities in image and text understanding, offer a solid foundation for intelligent communications. However, their effectiveness is constrained by limited token granularity, overlong visual token sequences, and inadequate cross-modal alignment. To overcome these challenges, we propose TaiChi, a novel VLM framework designed for token communications. TaiChi adopts a dual-visual tokenizer architecture that processes both high- and low-resolution images to collaboratively capture pixel-level details and global conceptual features. A Bilateral Attention Network (BAN) is introduced to intelligently fuse multi-scale visual tokens, thereby enhancing visual understanding and producing compact visual tokens. In addition, a Kolmogorov Arnold Network (KAN)-based modality projector with learnable activation functions is employed to achieve precise nonlinear alignment from visual features to the text semantic space, thus minimizing information loss. Finally, TaiChi is integrated into a multimodal and multitask token communication system equipped with a joint VLM-channel coding scheme. Experimental results validate the superior performance of TaiChi, as well as the feasibility and effectiveness of the TaiChi-driven token communication system.
Abstract（参考訳）: VLM(Visual-Language Models)は、画像やテキストの理解に強い能力を持ち、インテリジェントなコミュニケーションの基盤となる。しかし、それらの効果は制限されたトークンの粒度、長い視覚的トークンシーケンス、不適切なクロスモーダルアライメントによって制限されている。これらの課題を克服するために,トークン通信用に設計された新しいVLMフレームワークであるTaiChiを提案する。 TaiChiは、高解像度画像と低解像度画像の両方を処理し、ピクセルレベルの詳細とグローバルな概念的特徴を協調的にキャプチャするデュアルビジュアルトークン化アーキテクチャを採用している。バイラテラル・アテンション・ネットワーク(BAN)は、マルチスケールの視覚トークンをインテリジェントに融合させ、視覚的理解を高め、コンパクトな視覚トークンを生成する。さらに、学習可能なアクティベーション機能を備えたコルモゴロフアーノルドネットワーク(KAN)ベースのモダリティプロジェクタを用いて、視覚特徴からテキスト意味空間への正確な非線形アライメントを実現し、情報損失を最小限に抑える。最後に、共同VLMチャネル符号化方式を備えたマルチモーダルおよびマルチタスクトークン通信システムに統合する。実験により, TaiChi の優れた性能, および TaiChi 駆動型トークン通信システムの実現可能性および有効性について検証した。

関連論文リスト

CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion [30.426836071099885]
ビジョン言語モデル(VLM)は、訓練済みのビジョンエンコーダから画像トークンを言語モデルのテキストストリームに挿入することで、一般的に訓練される。これにより、テキストと画像の情報はモデル内で完全に参加できるが、高解像度の画像や長い会話、あるいはストリーミングビデオには、メモリと計算の両方で非常にコストがかかる。 CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm that significantly reduce the gap with full token insert on common image understanding benchmarks。
論文参考訳（メタデータ） (2025-12-22T16:21:39Z)
Unified Multimodal Understanding via Byte-Pair Visual Encoding [34.96534298857146]
マルチモーダル大言語モデル (MLLM) は視覚言語理解において大きな進歩を遂げている。視覚トークンにバイトペアエンコーディングを適用することで,マルチモーダル理解を統一するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T09:08:08Z)
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。