Fugu-MT 論文翻訳(概要): AmCLR: Unified Augmented Learning for Cross-Modal Representations

論文の概要: AmCLR: Unified Augmented Learning for Cross-Modal Representations

arxiv url: http://arxiv.org/abs/2412.07979v1
Date: Tue, 10 Dec 2024 23:32:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.497272
Title: AmCLR: Unified Augmented Learning for Cross-Modal Representations
Title（参考訳）: AmCLR: クロスモーダル表現のための統一された拡張学習
Authors: Ajay Jagannath, Aayush Upadhyay, Anant Mehta,
Abstract要約: バイモーダル視覚言語モデルに適したAmCLRとxAmCLRの目的関数を提案する。これらの進歩は、より弾力的で一般化可能な対照的な学習プロセスをもたらす。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive learning has emerged as a pivotal framework for representation learning, underpinning advances in both unimodal and bimodal applications like SimCLR and CLIP. To address fundamental limitations like large batch size dependency and bimodality, methods such as SogCLR leverage stochastic optimization for the global contrastive objective. Inspired by SogCLR's efficiency and adaptability, we introduce AmCLR and xAmCLR objective functions tailored for bimodal vision-language models to further enhance the robustness of contrastive learning. AmCLR integrates diverse augmentations, including text paraphrasing and image transformations, to reinforce the alignment of contrastive representations, keeping batch size limited to a few hundred samples unlike CLIP which needs batch size of 32,768 to produce reasonable results. xAmCLR further extends this paradigm by incorporating intra-modal alignments between original and augmented modalities for richer feature learning. These advancements yield a more resilient and generalizable contrastive learning process, aimed at overcoming bottlenecks in scaling and augmentative diversity. Since we have built our framework on the existing SogCLR, we are able to demonstrate improved representation quality with fewer computational resources, establishing a foundation for scalable and robust multi-modal learning.
Abstract（参考訳）: コントラスト学習は表現学習の重要なフレームワークとして現れ、SimCLRやCLIPのような非モーダルアプリケーションとバイモーダルアプリケーションの両方で進歩を支えている。大規模なバッチサイズ依存やバイモーダリティといった基本的な制限に対処するため、SogCLRのようなメソッドは、グローバルな対照的な目的のために確率的最適化を利用する。 SogCLRの効率性と適応性に触発されて、両モーダル視覚言語モデルに適したAmCLRとxAmCLRの目的関数を導入し、コントラスト学習の堅牢性をさらに向上させる。 AmCLRは、テキストパラフレーズや画像変換など、さまざまな拡張を統合して、コントラスト表現のアライメントを強化し、バッチサイズを32,768のバッチサイズを必要とするCLIPとは異なり、数百のサンプルに制限する。 xAmCLRは、よりリッチな特徴学習のために、オリジナルと拡張されたモダリティ間のモダリティ内アライメントを組み込むことにより、このパラダイムをさらに拡張します。これらの進歩は、スケーリングと拡張的多様性のボトルネックを克服することを目的とした、より弾力的で一般化可能な対照的な学習プロセスをもたらす。既存のSogCLR上でフレームワークを構築したので、少ない計算リソースで表現品質の向上を実証することができ、スケーラブルで堅牢なマルチモーダル学習の基礎を確立しました。

関連論文リスト

Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment [11.460393501694021]
クロスモーダル表現学習を導く新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。 MaPLEは、学習過程を強化学習として定式化し、既成のMLLMを用いた自動選好データ構築と、新たなRPA(Relative Preference Alignment)損失という2つの重要な要素を定式化している。実験結果から,我々の嗜好誘導アライメントは細粒度クロスモーダル検索において著しく向上することが示された。
論文参考訳（メタデータ） (2025-06-08T02:33:35Z)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文参考訳（メタデータ） (2025-04-04T04:15:52Z)
Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。 CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文参考訳（メタデータ） (2025-03-16T12:34:07Z)
Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-26T09:30:26Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
Contrastive Learning Via Equivariant Representation [19.112460889771423]
CLeVERは,任意の複雑性の増大戦略に適合する,新しい異種コントラスト学習フレームワークである。実験結果から,CLeVERは実用自然画像から同変情報を効果的に抽出し,組み込んだ。
論文参考訳（メタデータ） (2024-06-01T01:53:51Z)
Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。 GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文参考訳（メタデータ） (2024-05-27T14:50:42Z)
RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RANKCLIPは、CLIPの厳格な1対1マッチングフレームワークを超えて拡張される、新しい事前トレーニング手法である。従来のペアワイズ損失をリストワイズに拡張することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンス付き多対多の関係をキャプチャする。
論文参考訳（メタデータ） (2024-04-15T00:12:27Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文参考訳（メタデータ） (2021-03-11T09:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。