論文の概要: t-gems: text-guided exit modules for decreasing clip image encoder
- arxiv url: http://arxiv.org/abs/2605.17499v1
- Date: Sun, 17 May 2026 15:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.37097
- Title: t-gems: text-guided exit modules for decreasing clip image encoder
- Title(参考訳): t-gems: クリップイメージエンコーダの削減のためのテキスト誘導出口モジュール
- Authors: Alberto Presta, Grzegorz Stefanski, Michal Byra, Krzysztof Arendt,
- Abstract要約: マルチモーダルディープニューラルネットワークは、多様なデータモダリティを統合することにより、深い理解を高める。
早期終了法は、中間層、保存時間、メモリを利用して計算負荷を削減する。
我々は,テキストガイド付きExit Modules (T-GEMs) とレートベースの正規化器を導入し,マルチモーダル理解性能を維持しつつエンコーダの使用コストを制御する。
- 参考スコア(独自算出の注目度): 2.8628939818365935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal deep neural networks enhance deep comprehension by integrating diverse data modalities. Data from different modalities are typically projected into a shared latent space for similarity computation, but this process is resource intensive due to large image encoders and equal processing of test data during prediction. Early exit methods reduce computational load by utilizing intermediate layers, saving time and memory. However, developing such methods is challenging for multimodal data like image-text pairs. This study investigates the semantic content distributions present in intermediate layers of encoders such as CLIP, which can be derived from textual descriptions. We introduce Text-Guided Exit Modules (T-GEMs) and a rate-based regularizer to control encoder usage costs while maintaining cross-modal understanding performance.
- Abstract(参考訳): マルチモーダルディープニューラルネットワークは、多様なデータモダリティを統合することにより、深い理解を高める。
異なるモダリティのデータは通常、類似性計算のために共有潜在空間に投影されるが、このプロセスは大きな画像エンコーダと予測中のテストデータの平等な処理のためにリソース集約的である。
早期終了法は、中間層、保存時間、メモリを利用して計算負荷を削減する。
しかし,このような手法の開発は,画像とテキストのペアのようなマルチモーダルデータにとって困難である。
テキスト記述から導出可能なCLIPなどの中間層に存在する意味的内容分布について検討した。
我々は,テキストガイド付きExit Modules (T-GEMs) とレートベースの正規化器を導入し,マルチモーダル理解性能を維持しつつエンコーダの使用コストを制御する。
関連論文リスト
- FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression [7.643300240138419]
我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。
提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
論文 参考訳(メタデータ) (2024-12-17T15:01:35Z) - Multimodal generative semantic communication based on latent diffusion model [13.035207938169844]
本稿では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合したセマンティックセグメンテーションマップを生成して送信する。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
論文 参考訳(メタデータ) (2024-08-10T06:23:41Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - LDMIC: Learning-based Distributed Multi-view Image Coding [5.157089773775356]
マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。
既存の方法では、残りの情報だけでなく、対応する差分を圧縮するためにジョイントエンコーディングが必要である。
学習に基づく分散マルチビュー画像符号化フレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-24T03:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。