Fugu-MT 論文翻訳(概要): MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval

論文の概要: MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval

arxiv url: http://arxiv.org/abs/2310.19654v2
Date: Thu, 28 Mar 2024 08:47:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:33:29.784499
Title: MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval
Title（参考訳）: MCAD:効率的な画像テキスト検索のためのマルチ教師クロスモーダルアライメント蒸留
Authors: Youbo Lei, Feifei He, Chen Chen, Yingbin Mo, Si Jia Li, Defeng Xie, Haonan Lu,
Abstract要約: 本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。 Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
参考スコア（独自算出の注目度）: 7.233106731197739
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the success of large-scale visual-language pretraining (VLP) models and the widespread use of image-text retrieval in industry areas, it is now critically necessary to reduce the model size and streamline their mobile-device deployment. Single- and dual-stream model structures are commonly used in image-text retrieval with the goal of closing the semantic gap between textual and visual modalities. While single-stream models use deep feature fusion to achieve more accurate cross-model alignment, dual-stream models are better at offline indexing and fast inference.We propose a Multi-teacher Cross-modality Alignment Distillation (MCAD) technique to integrate the advantages of single- and dual-stream models. By incorporating the fused single-stream features into the image and text features of the dual-stream model, we formulate new modified teacher similarity distributions and features. Then, we conduct both distribution and feature distillation to boost the capability of the student dual-stream model, achieving high retrieval performance without increasing inference complexity.Extensive experiments demonstrate the remarkable performance and high efficiency of MCAD on image-text retrieval tasks. Furthermore, we implement a lightweight CLIP model on Snapdragon/Dimensity chips with only $\sim$100M running memory and $\sim$8.0ms search latency, achieving the mobile-device application of VLP models.
Abstract（参考訳）: 大規模ビジュアル言語事前学習(VLP)モデルの成功と,産業領域における画像テキスト検索の普及により,モデルサイズを削減し,モバイルデバイス展開を合理化することが重要になった。シングルストリームモデルとデュアルストリームモデル構造は、テキストと視覚のセマンティックギャップを埋めることを目的として、画像テキスト検索で一般的に使用される。シングルストリームモデルは、より正確なクロスモデルアライメントを実現するために、深い特徴融合を用いるが、デュアルストリームモデルはオフラインインデックス化と高速推論に優れており、シングルストリームモデルとデュアルストリームモデルの利点を統合するために、マルチTeacher Cross-modality Alignment Distillation (MCAD)技術を提案する。両ストリームモデルのイメージとテキストの特徴に融合した単一ストリーム特徴を組み込むことで,教師の類似度分布と特徴を新たに定義する。そして,学生の2重ストリームモデルの性能向上を図るため,分布と特徴蒸留を併用し,推論複雑性を増大させることなく高い検索性能を実現し,画像テキスト検索タスクにおけるMCADの顕著な性能と高い効率を実証する実験を行った。さらに、Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し、動作メモリが$\sim$100M、検索遅延が$\sim$8.0msで、VLPモデルのモバイルデバイスアプリケーションを実現する。

関連論文リスト

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文参考訳（メタデータ） (2025-09-19T17:58:00Z)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文参考訳（メタデータ） (2025-09-03T17:29:50Z)
AMMKD: Adaptive Multimodal Multi-teacher Distillation for Lightweight Vision-Language Models [35.71783914954563]
本稿では, マルチモーダルな特徴融合, マルチティーチンガー蒸留, 適応最適化を統合し, 軽量で効果的な検索モデルを提供する新しいフレームワークを提案する。 3つのベンチマークデータセットの実験では、AMMKDはモデル複雑性を著しく低減し、その有効性と柔軟性を検証しながら、優れたパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-23T04:52:20Z)
MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-07-13T10:52:59Z)
Show-o2: Improved Native Unified Multimodal Models [21.78513101265258]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。 3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文参考訳（メタデータ） (2025-06-18T15:39:15Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Distilling Textual Priors from LLM to Efficient Image Fusion [21.691878602028144]
マルチモダリティ画像融合は、複数のソース入力から単一の総合的なイメージを合成することを目的としている。 CNNやGANといった従来のアプローチは効率性を提供するが、低品質または複雑な入力を扱うのに苦労する。テキスト誘導手法の最近の進歩は、これらの制限を克服するために大きなモデル事前を利用するが、かなりの計算オーバーヘッドを犠牲にしている。そこで本研究では,モデルサイズを劇的に削減しつつ,推論中のテキストガイダンスの必要性を解消し,大規模モデル前駆体を蒸留する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-09T16:44:19Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文参考訳（メタデータ） (2024-12-26T11:46:22Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。 MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文参考訳（メタデータ） (2024-05-29T17:59:10Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-11T15:13:31Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文参考訳（メタデータ） (2023-04-19T16:18:47Z)
Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-26T19:18:27Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。