論文の概要: ConaCLIP: Exploring Distillation of Fully-Connected Knowledge
Interaction Graph for Lightweight Text-Image Retrieval
- arxiv url: http://arxiv.org/abs/2305.17652v1
- Date: Sun, 28 May 2023 07:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:38:32.618044
- Title: ConaCLIP: Exploring Distillation of Fully-Connected Knowledge
Interaction Graph for Lightweight Text-Image Retrieval
- Title(参考訳): ConaCLIP:軽量テキスト画像検索のための完全連結知識相互作用グラフの蒸留探索
- Authors: Jiapeng Wang, Chengyu Wang, Xiaodan Wang, Jun Huang, Lianwen Jin
- Abstract要約: 本研究では, クロスモーダル予混合蒸留のための完全連結知識相互作用グラフ(Cona)手法を提案する。
その結果,コンナクリップSOTAはFlickr30KとMSCOCOのベンチマークで軽量な設定で動作することがわかった。
- 参考スコア(独自算出の注目度): 35.32145650252095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained text-image models with dual-encoder architectures
(such as CLIP) are typically adopted for various vision-language applications,
including text-image retrieval. However,these models are still less practical
on edge devices or for real-time situations, due to the substantial indexing
and inference time and the large consumption of computational resources.
Although knowledge distillation techniques have been widely utilized for
uni-modal model compression, how to expand them to the situation when the
numbers of modalities and teachers/students are doubled has been rarely
studied. In this paper, we conduct comprehensive experiments on this topic and
propose the fully-Connected knowledge interaction graph (Cona) technique for
cross-modal pre-training distillation. Based on our findings, the resulting
ConaCLIP achieves SOTA performances on the widely-used Flickr30K and MSCOCO
benchmarks under the lightweight setting. An industry application of our method
on an e-commercial platform further demonstrates the significant effectiveness
of ConaCLIP.
- Abstract(参考訳): デュアルエンコーダアーキテクチャ(CLIPなど)を備えた大規模事前訓練されたテキストイメージモデルは通常、テキストイメージ検索を含む様々な視覚言語アプリケーションに採用されている。
しかしながら、これらのモデルは、かなりのインデックス化と推論時間と計算資源の大量消費のため、エッジデバイスやリアルタイムの状況では実用的ではない。
ユニモーダルモデル圧縮には知識蒸留技術が広く利用されているが,モダリティ数と教師・学生数を倍増させる方法がほとんど研究されていない。
本稿では,本トピックに関する包括的実験を行い,クロスモーダルプレトレーニング蒸留のための完全連結知識相互作用グラフ(cona)手法を提案する。
その結果, Flickr30K と MSCOCO のベンチマークにおいて, 軽量な設定でSOTA 性能を達成できた。
本手法のe-commercial platformへの産業的応用により,ConaCLIPの有効性がさらに示された。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Efficient automated U-Net based tree crown delineation using UAV
multi-spectral imagery on embedded devices [2.7393821783237184]
ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。
ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善した。
マルチスペクトル画像を用いて効果的にトレーニングするU-Netベースツリーデライン化手法を提案するが,その上で単一スペクトル画像のデライン化を行うことができる。
論文 参考訳(メタデータ) (2021-07-16T11:17:36Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。