論文の概要: High Efficiency Image Compression for Large Visual-Language Models
- arxiv url: http://arxiv.org/abs/2407.17060v1
- Date: Wed, 24 Jul 2024 07:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:33:39.209913
- Title: High Efficiency Image Compression for Large Visual-Language Models
- Title(参考訳): 大規模視線モデルのための高効率画像圧縮
- Authors: Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて優れた性能と有望な一般化能力を示している。
本稿では,事前編集モジュールとエンドツーエンドから構成される可変画像圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.484831372497437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large visual language models (LVLMs) have shown impressive performance and promising generalization capability in multi-modal tasks, thus replacing humans as receivers of visual information in various application scenarios. In this paper, we pioneer to propose a variable bitrate image compression framework consisting of a pre-editing module and an end-to-end codec to achieve promising rate-accuracy performance for different LVLMs. In particular, instead of optimizing an adaptive pre-editing network towards a particular task or several representative tasks, we propose a new optimization strategy tailored for LVLMs, which is designed based on the representation and discrimination capability with token-level distortion and rank. The pre-editing module and the variable bitrate end-to-end image codec are jointly trained by the losses based on semantic tokens of the large model, which introduce enhanced generalization capability for various data and tasks. {Experimental results demonstrate that the proposed framework could efficiently achieve much better rate-accuracy performance compared to the state-of-the-art coding standard, Versatile Video Coding.} Meanwhile, experiments with multi-modal tasks have revealed the robustness and generalization capability of the proposed framework.
- Abstract(参考訳): 近年,大規模視覚言語モデル (LVLM) は多モーダルタスクにおいて優れた性能と有望な一般化能力を示しており,様々なアプリケーションシナリオにおける視覚情報の受信機として人間を置き換えている。
本稿では,異なるLVLMに対して有望なレート精度を実現するために,事前編集モジュールとエンドツーエンドコーデックで構成される可変ビットレート画像圧縮フレームワークを提案する。
特に,特定のタスクや複数の代表タスクに対して適応型事前編集ネットワークを最適化する代わりに,トークンレベルの歪みとランクを持つ表現と識別能力に基づいて,LVLMに適した新しい最適化戦略を提案する。
プレ編集モジュールと可変ビットレートエンドツーエンドの画像コーデックは、大きなモデルのセマンティックトークンに基づいて損失によって共同で訓練され、様々なデータやタスクの一般化機能が導入される。
実験結果から,提案フレームワークは,最先端の符号化標準であるVersatile Video Codingと比較して,効率よくレート精度を向上できることが示された。
一方,マルチモーダルタスクを用いた実験により,提案フレームワークの堅牢性と一般化能力が明らかにされた。
関連論文リスト
- Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文 参考訳(メタデータ) (2025-01-08T15:48:30Z) - Optimizing Vision-Language Interactions Through Decoder-Only Models [4.219163079329444]
MUDAIFは視覚とテキストの入力をシームレスに統合する視覚言語モデルである。
効率性、柔軟性、クロスモーダルな理解が向上します。
45Mイメージテキストペアの大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-12-14T09:04:32Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action
Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。
ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文 参考訳(メタデータ) (2024-01-22T02:03:31Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。