論文の概要: UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2509.22570v1
- Date: Fri, 26 Sep 2025 16:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.595324
- Title: UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration
- Title(参考訳): UniMIC:人間-AIコラボレーションのためのトークンベースのマルチモーダルインタラクティブコーディング
- Authors: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu,
- Abstract要約: エッジデバイスとクラウドAIエージェントをブリッジするトークンベースのMultimodal Interactive CodingフレームワークであるUniMICを提案する。
UniMICは通信媒体としてコンパクトなトークン化表現を採用し、効率的な低ビットレート伝送を実現する。
テキスト・ツー・イメージ生成、テキスト・ガイド・インペインティング、アウトペインティング、視覚的質問応答の実験は、UniMICがかなりの節約を達成していることを示している。
- 参考スコア(独自算出の注目度): 21.633481068383194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)とクラウドベースのAIエージェントの急速な進歩は、人間とAIのコラボレーションを双方向のマルチモーダルインタラクションに変換する。
しかし、既存のコーデックは一方的な一方的な通信に最適化されているため、従来の圧縮-伝達-再構成パイプラインで繰り返し劣化する。
この制限に対処するために、エッジデバイスとクラウドAIエージェントをブリッジするUniMIC(Unified token-based Multimodal Interactive Coding framework)を提案する。
生のピクセルやプレーンテキストを送信する代わりに、UniMICはコンパクトなトークン化表現を通信媒体として使用し、LMMとの互換性を維持しながら効率的な低ビットレート伝送を実現する。
圧縮をさらに強化するため、シナリオ固有の設計、マスク付き、テキスト条件付きエントロピーモデルによる軽量トランスフォーマーベースのエントロピーモデルでは、トーケン間の冗長性を効果的に最小化する。
テキスト・ツー・イメージ生成, テキスト・ガイド・インペイント, アウトペイント, 視覚的質問応答の広範な実験により, UniMIC はダウンストリームタスク性能を損なうことなく, 超低ビットレート (0.05bpp) でも頑健であることがわかった。
これらの結果から、UniMICは次世代マルチモーダル対話通信の実践的で先進的なパラダイムとして確立されている。
関連論文リスト
- Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks [19.42660454288912]
本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。
モーダル間の整合性とタスク関連トークン伝送を改善するために,2段階のトレーニングアルゴリズムを設計する。
また、レイテンシと推論性能に対する重み付きサム最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-05-06T14:17:05Z) - InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。
下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。
また、単一タスクの精度を平均22%向上させる。
論文 参考訳(メタデータ) (2025-04-13T20:03:29Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文 参考訳(メタデータ) (2025-03-11T10:50:14Z) - Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。
LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-21T21:48:24Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。