論文の概要: AmCLR: Unified Augmented Learning for Cross-Modal Representations
- arxiv url: http://arxiv.org/abs/2412.07979v1
- Date: Tue, 10 Dec 2024 23:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:22.951760
- Title: AmCLR: Unified Augmented Learning for Cross-Modal Representations
- Title(参考訳): AmCLR: クロスモーダル表現のための統一された拡張学習
- Authors: Ajay Jagannath, Aayush Upadhyay, Anant Mehta,
- Abstract要約: バイモーダル視覚言語モデルに適したAmCLRとxAmCLRの目的関数を提案する。
これらの進歩は、より弾力的で一般化可能な対照的な学習プロセスをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Contrastive learning has emerged as a pivotal framework for representation learning, underpinning advances in both unimodal and bimodal applications like SimCLR and CLIP. To address fundamental limitations like large batch size dependency and bimodality, methods such as SogCLR leverage stochastic optimization for the global contrastive objective. Inspired by SogCLR's efficiency and adaptability, we introduce AmCLR and xAmCLR objective functions tailored for bimodal vision-language models to further enhance the robustness of contrastive learning. AmCLR integrates diverse augmentations, including text paraphrasing and image transformations, to reinforce the alignment of contrastive representations, keeping batch size limited to a few hundred samples unlike CLIP which needs batch size of 32,768 to produce reasonable results. xAmCLR further extends this paradigm by incorporating intra-modal alignments between original and augmented modalities for richer feature learning. These advancements yield a more resilient and generalizable contrastive learning process, aimed at overcoming bottlenecks in scaling and augmentative diversity. Since we have built our framework on the existing SogCLR, we are able to demonstrate improved representation quality with fewer computational resources, establishing a foundation for scalable and robust multi-modal learning.
- Abstract(参考訳): コントラスト学習は表現学習の重要なフレームワークとして現れ、SimCLRやCLIPのような非モーダルアプリケーションとバイモーダルアプリケーションの両方で進歩を支えている。
大規模なバッチサイズ依存やバイモーダリティといった基本的な制限に対処するため、SogCLRのようなメソッドは、グローバルな対照的な目的のために確率的最適化を利用する。
SogCLRの効率性と適応性に触発されて、両モーダル視覚言語モデルに適したAmCLRとxAmCLRの目的関数を導入し、コントラスト学習の堅牢性をさらに向上させる。
AmCLRは、テキストパラフレーズや画像変換など、さまざまな拡張を統合して、コントラスト表現のアライメントを強化し、バッチサイズを32,768のバッチサイズを必要とするCLIPとは異なり、数百のサンプルに制限する。
xAmCLRは、よりリッチな特徴学習のために、オリジナルと拡張されたモダリティ間のモダリティ内アライメントを組み込むことにより、このパラダイムをさらに拡張します。
これらの進歩は、スケーリングと拡張的多様性のボトルネックを克服することを目的とした、より弾力的で一般化可能な対照的な学習プロセスをもたらす。
既存のSogCLR上でフレームワークを構築したので、少ない計算リソースで表現品質の向上を実証することができ、スケーラブルで堅牢なマルチモーダル学習の基礎を確立しました。
関連論文リスト
- Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。
拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T09:30:26Z) - Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文 参考訳(メタデータ) (2024-10-16T14:12:26Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Contrastive Learning Via Equivariant Representation [19.112460889771423]
CLeVERは,任意の複雑性の増大戦略に適合する,新しい異種コントラスト学習フレームワークである。
実験結果から,CLeVERは実用自然画像から同変情報を効果的に抽出し,組み込んだ。
論文 参考訳(メタデータ) (2024-06-01T01:53:51Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RANKCLIPは、CLIPの厳格な1対1マッチングフレームワークを超えて拡張される、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンス付き多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。