Fugu-MT 論文翻訳(概要): ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck

論文の概要: ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck

arxiv url: http://arxiv.org/abs/2407.19651v1
Date: Mon, 29 Jul 2024 02:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 15:16:04.668647
Title: ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck
Title（参考訳）: ComNeck:Universal Transform-Neckによる圧縮画像とマルチモーダルLCMのブリッジ
Authors: Chia-Hao Kao, Cheng Chien, Yu-Jen Tseng, Yi-Hsin Chen, Alessandro Gnutti, Shao-Yuan Lo, Wen-Hsiao Peng, Riccardo Leonardi,
Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。我々のフレームワークには,トランスフォーメーションネックのトレーニングから下流MLLMを除いた印象的な機能と,ニューラルイメージも備えています。
参考スコア（独自算出の注目度）: 45.83457913639876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the first-ever study of adapting compressed image latents to suit the needs of downstream vision tasks that adopt Multimodal Large Language Models (MLLMs). MLLMs have extended the success of large language models to modalities (e.g. images) beyond text, but their billion scale hinders deployment on resource-constrained end devices. While cloud-hosted MLLMs could be available, transmitting raw, uncompressed images captured by end devices to the cloud requires an efficient image compression system. To address this, we focus on emerging neural image compression and propose a novel framework with a lightweight transform-neck and a surrogate loss to adapt compressed image latents for MLLM-based vision tasks. The proposed framework is generic and applicable to multiple application scenarios, where the neural image codec can be (1) pre-trained for human perception without updating, (2) fully updated for joint human and machine perception, or (3) fully updated for only machine perception. The transform-neck trained with the surrogate loss is universal, for it can serve various downstream vision tasks enabled by a variety of MLLMs that share the same visual encoder. Our framework has the striking feature of excluding the downstream MLLMs from training the transform-neck, and potentially the neural image codec as well. This stands out from most existing coding for machine approaches that involve downstream networks in training and thus could be impractical when the networks are MLLMs. Extensive experiments on different neural image codecs and various MLLM-based vision tasks show that our method achieves great rate-accuracy performance with much less complexity, demonstrating its effectiveness.
Abstract（参考訳）: 本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。 MLLMは大規模言語モデルの成功を、テキスト以外のモダリティ(例:画像)にまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。クラウドでホストされるMLLMは利用可能だが、エンドデバイスによってキャプチャされた生の非圧縮イメージをクラウドに送信するには、効率的な画像圧縮システムが必要である。そこで我々は,新しいニューラルイメージ圧縮に焦点をあて,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を適応させる新しいフレームワークを提案する。提案フレームワークは汎用的で複数のアプリケーションシナリオに適用可能であり,(1)人間の知覚のために事前訓練されたニューラルイメージコーデック,(2)人間と機械の知覚のための完全更新,(3)機械の知覚のみのための完全更新などが可能である。代理損失で訓練された変換ネックは普遍的であり、同じ視覚エンコーダを共有する様々なMLLMによって実現される様々な下流視覚タスクに役立てることができる。我々のフレームワークは、トランスネックのトレーニングから下流MLLMを排除し、ニューラルイメージコーデックも取り除くという目覚ましい特徴を持っている。これは、トレーニング中に下流ネットワークを含むマシンアプローチのための既存のほとんどのコーディングと異なり、ネットワークがMLLMである場合、現実的ではない可能性がある。様々なニューラルイメージコーデックと様々なMLLMベースの視覚タスクに対する広範囲な実験により、我々の手法は、非常に少ない複雑さで高いレート精度のパフォーマンスを達成し、その効果を実証している。

関連論文リスト

Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文参考訳（メタデータ） (2025-06-18T17:14:07Z)
QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining [28.2730962800806]
既存のMLLMとシームレスに統合可能なCLIPビジョンエンコーダのドロップイン置換を提案する。 QLIPは、様々なモデルサイズにわたるLLaVA v1.5モデルの一般的な視覚的質問応答精度を改善する。特にQLIPは、挑戦的な$Vast$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
論文参考訳（メタデータ） (2025-05-29T02:26:34Z)
GazeLLM: Multimodal LLMs incorporating Human Visual Attention [27.901311447875948]
大規模言語モデル (LLM) は、画像、オーディオ、ビデオ、およびテキストを処理できるマルチモーダル LLM に進化している。本稿では、視線追跡データを統合することにより、一対一の映像分析を最適化する手法を提案し、一対一の視覚映像を視線焦点領域のサブ領域に分解する手法を提案する。
論文参考訳（メタデータ） (2025-03-31T20:50:04Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。 MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文参考訳（メタデータ） (2024-12-02T09:02:28Z)
Omni-IML: Towards Unified Image Manipulation Localization [33.38946428507517]
IMLタスクを統一する最初の一般モデルであるOmni-IMLを提案する。我々は、自然画像、文書画像、顔画像の3つの主要なシナリオにわたるIMLタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2024-11-22T09:44:13Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文参考訳（メタデータ） (2024-08-04T13:55:58Z)
A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。 MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文参考訳（メタデータ） (2021-11-03T17:20:36Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。