論文の概要: L-CLIPScore: a Lightweight Embedding-based Captioning Metric for Evaluating and Training
- arxiv url: http://arxiv.org/abs/2507.08710v1
- Date: Fri, 11 Jul 2025 16:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.417295
- Title: L-CLIPScore: a Lightweight Embedding-based Captioning Metric for Evaluating and Training
- Title(参考訳): L-CLIPScore:軽量な埋め込み型キャプションメトリックの評価とトレーニング
- Authors: Li Li, Yingzhe Peng, Xu Yang, Ruoxi Cheng, Haiyang Xu, Ming Yan, Fei Huang,
- Abstract要約: L-CLIPScoreと呼ばれる新しい埋め込み型キャプション計算を提案する。
L-CLIPScoreは、CLIPから圧縮・蒸留されたデュアルエンコーダアーキテクチャである軽量CLIPから計算される。
我々は,L-CLIPScoreを審査員として用いてキャプション品質を評価する際に,L-CLIPScoreの有効性と有効性を検証するために,徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 40.87934127615281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel embedding-based captioning metric termed as L-CLIPScore that can be used for efficiently evaluating caption quality and training captioning model. L-CLIPScore is calculated from a lightweight CLIP (L-CLIP), which is a dual-encoder architecture compressed and distilled from CLIP. To compress, we apply two powerful techniques which are weight multiplexing and matrix decomposition for reducing the parameters of encoders and word embedding matrix, respectively. To distill, we design a novel multi-modal Similarity Regulator (SR) loss to transfer more vision-language alignment knowledge. Specifically, SR loss amplifies the multi-modal embedding similarity if the given image-text pair is matched and diminishes the similarity if the pair is non-matched. By compressing and distilling by this novel SR loss, our L-CLIP achieves comparable multi-modal alignment ability to the original CLIP while it requires fewer computation resources and running time. We carry out exhaustive experiments to validate the efficiency and effectiveness of L-CLIPScore when using it as the judge to evaluate caption quality. We also discover that when using L-CLIPScore as the supervisor to train the captioning model, it should be mixed up by an n-gram-based metric and meanwhile analyze why using L-CLIPScore only will cause fail training.
- Abstract(参考訳): 本稿では,L-CLIPScoreと呼ばれる新しい埋め込み型キャプションメトリクスを提案し,キャプションの品質とトレーニングキャプションモデルを効率的に評価することができる。
L-CLIPScoreは軽量CLIP(L-CLIP)から計算される。
圧縮のために,エンコーダと単語埋め込み行列のパラメータを低減するために,重み多重化と行列分解の2つの強力な手法を適用した。
そこで我々は,新たな多モード類似性レギュレータ(SR)ロスを設計し,より視覚的なアライメントの知識を伝達する。
具体的には、所定の画像テキスト対が一致した場合、SR損失はマルチモーダル埋め込み類似性を増幅し、ペアが一致しない場合、類似性を低下させる。
このSR損失を圧縮・蒸留することで、L-CLIPは元のCLIPに匹敵するマルチモーダルアライメントを実現します。
我々は,L-CLIPScoreを審査員として用いてキャプション品質を評価する際に,L-CLIPScoreの有効性と有効性を検証するために,徹底的な実験を行った。
また,L-CLIPScoreを用いてキャプションモデルを訓練する場合,L-CLIPScoreがなぜフェールトレーニングしか起こらないのかを,n-gram-based metricで解析する。
関連論文リスト
- un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-05-30T12:29:38Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T14:04:09Z) - PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models [8.480318790780037]
本稿では,PLPPと呼ばれるプラグイン・プロンプト正規化手法を提案する。
4つの分類タスクで行った実験は、PLPPが既存の手法に比べて優れた性能を示したことを示している。
論文 参考訳(メタデータ) (2024-12-18T03:08:53Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [10.502680141980642]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。