論文の概要: Revisiting MLLM Token Technology through the Lens of Classical Visual Coding
- arxiv url: http://arxiv.org/abs/2508.13460v1
- Date: Tue, 19 Aug 2025 02:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.77028
- Title: Revisiting MLLM Token Technology through the Lens of Classical Visual Coding
- Title(参考訳): 古典的視覚符号化のレンズによるMLLMトークン技術の再検討
- Authors: Jinming Liu, Junyan Lin, Yuntao Wei, Kele Shao, Keda Tao, Jianguo Huang, Xudong Yang, Zhibo Chen, Huan Wang, Xin Jin,
- Abstract要約: 本稿では,トークン化,トークン圧縮,トークン推論などのMLLMトークン技術を再検討する。
本研究は,MLLMトークンと視覚符号化の包括的および構造的比較を行った最初の技術である。
- 参考スコア(独自算出の注目度): 16.905045322159953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical visual coding and Multimodal Large Language Model (MLLM) token technology share the core objective - maximizing information fidelity while minimizing computational cost. Therefore, this paper reexamines MLLM token technology, including tokenization, token compression, and token reasoning, through the established principles of long-developed visual coding area. From this perspective, we (1) establish a unified formulation bridging token technology and visual coding, enabling a systematic, module-by-module comparative analysis; (2) synthesize bidirectional insights, exploring how visual coding principles can enhance MLLM token techniques' efficiency and robustness, and conversely, how token technology paradigms can inform the design of next-generation semantic visual codecs; (3) prospect for promising future research directions and critical unsolved challenges. In summary, this study presents the first comprehensive and structured technology comparison of MLLM token and visual coding, paving the way for more efficient multimodal models and more powerful visual codecs simultaneously.
- Abstract(参考訳): 古典的なビジュアルコーディングとマルチモーダル大言語モデル(MLLM)トークン技術は、計算コストを最小化しながら情報の忠実度を最大化する。
そこで本稿では,長期にわたる視覚符号化領域の確立した原理を通じて,トークン化,トークン圧縮,トークン推論などのMLLMトークン技術を再検討する。
この観点から、(1)統一的な定式化ブリッジリングトークン技術とビジュアルコーディングを確立し、系統的なモジュール単位の比較分析を可能にし、(2)視覚的コーディング原理がMLLMトークン技術の効率性と堅牢性をいかに向上するかを考察し、逆に、トークン技術パラダイムが次世代のセマンティック・ビジュアル・コーデックの設計にどのように役立つか、(3)将来的な研究方向性と重要な未解決課題を展望する。
本研究は,MLLMトークンと視覚符号化の包括的かつ構造化された最初の技術比較を行い,より効率的なマルチモーダルモデルとより強力な視覚コーデックを同時に実現した。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - Token Sequence Compression for Efficient Multimodal Computing [0.19116784879310028]
LMM(Large Multimodal Models)の指数的成長は、クロスモーダル推論の進歩を誘導しているが、計算コストは相当である。
我々は、現在の視覚エンコーダの冗長性と非効率性を強調し、マルチモーダルデータに対する適応圧縮手法の構築を目指す。
この研究は、高次元データのより効率的なエンコーディングと処理に向けた最初の取り組みであり、よりスケーラブルで持続可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2025-04-24T19:11:10Z) - Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [51.84752285423123]
本稿では,ビジョンエンコーダの事前知識がMLLM性能に与える影響を定量化するために,新しい計量である$Rank_e$を導入する。
視覚エンコーダレベルでの事前知識を明確に組み込んだ2段階トレーニングフレームワークであるVisPRE(Vision Prior Remediation)を提案する。
実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-23T11:33:09Z) - LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。
Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。
LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:29:55Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。