論文の概要: Unified Lexical Representation for Interpretable Visual-Language Alignment
- arxiv url: http://arxiv.org/abs/2407.17827v2
- Date: Mon, 11 Nov 2024 13:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:40.771719
- Title: Unified Lexical Representation for Interpretable Visual-Language Alignment
- Title(参考訳): 解釈可能な視覚言語アライメントのための統一語彙表現法
- Authors: Yifan Li, Yikai Wang, Yanwei Fu, Dongyu Ru, Zheng Zhang, Tong He,
- Abstract要約: 複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
- 参考スコア(独自算出の注目度): 52.059812317944434
- License:
- Abstract: Visual-Language Alignment (VLA) has gained a lot of attention since CLIP's groundbreaking work. Although CLIP performs well, the typical direct latent feature alignment lacks clarity in its representation and similarity scores. On the other hand, lexical representation, a vector whose element represents the similarity between the sample and a word from the vocabulary, is a natural sparse representation and interpretable, providing exact matches for individual words. However, lexical representations are difficult to learn due to no ground-truth supervision and false-discovery issues, and thus requires complex design to train effectively. In this paper, we introduce LexVLA, a more interpretable VLA framework by learning a unified lexical representation for both modalities without complex design. We use DINOv2 as our visual model for its local-inclined features and Llama 2, a generative language model, to leverage its in-context lexical prediction ability. To avoid the false discovery, we propose an overuse penalty to refrain the lexical representation from falsely frequently activating meaningless words. We demonstrate that these two pre-trained uni-modal models can be well-aligned by fine-tuning on the modest multi-modal dataset and avoid intricate training configurations. On cross-modal retrieval benchmarks, LexVLA, trained on the CC-12M multi-modal dataset, outperforms baselines fine-tuned on larger datasets (e.g., YFCC15M) and those trained from scratch on even bigger datasets (e.g., 1.1B data, including CC-12M). We conduct extensive experiments to analyze LexVLA. Codes are available at https://github.com/Clementine24/LexVLA.
- Abstract(参考訳): Visual-Language Alignment (VLA)は、CLIPの画期的な作業以来、多くの注目を集めている。
CLIPはうまく機能するが、典型的な遅延機能アライメントは、その表現と類似性スコアの明確さに欠ける。
一方、語彙のサンプルと単語の類似性を表現した語彙表現は、自然なスパース表現であり、個々の単語の正確な一致を提供する。
しかし、根底的な監督や誤発見の問題がないため、語彙表現の学習は困難であり、効果的に訓練するには複雑な設計が必要である。
本稿では,より解釈しやすいVLAフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
誤検出を避けるため,語彙表現が無意味な単語を誤発することを防ぐために,過剰なペナルティを提案する。
これら2つの事前学習されたユニモーダルモデルは、控えめなマルチモーダルデータセットを微調整し、複雑なトレーニング構成を避けることで、適切に整列できることを実証する。
クロスモーダル検索ベンチマークでは、CC-12MマルチモーダルデータセットでトレーニングされたLexVLAが、より大きなデータセット(例えば、YFCC15M)と、さらに大きなデータセット(例えば、CC-12Mを含む1.1Bデータ)でトレーニングされたデータセットのベースラインを微調整した上で、パフォーマンスが向上する。
我々はLexVLAを解析するための広範囲な実験を行った。
コードはhttps://github.com/Clementine24/LexVLAで公開されている。
関連論文リスト
- Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Does Vision-and-Language Pretraining Improve Lexical Grounding? [25.357191933430627]
ビジョン・アンド・ランゲージモデルは、テキストや画像、ビデオデータに基づいて共同で訓練される。
内部言語表現そのものが、テキストのみの表現とどのように比較されるのかは、まだ分かっていない。
論文 参考訳(メタデータ) (2021-09-21T15:12:39Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。