論文の概要: Information-Maximized Soft Variable Discretization for Self-Supervised Image Representation Learning
- arxiv url: http://arxiv.org/abs/2501.03469v1
- Date: Tue, 07 Jan 2025 02:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:39.208594
- Title: Information-Maximized Soft Variable Discretization for Self-Supervised Image Representation Learning
- Title(参考訳): 自己監督型画像表現学習のための情報最大化ソフト可変離散化
- Authors: Chuang Niu, Wenjun Xia, Hongming Shan, Ge Wang,
- Abstract要約: IMSVDは、潜伏空間内の各変数をソフトに識別する。
本稿では,変換不変性,非トラバス性,冗長性最小化表現特徴を学習するための情報理論的目的関数を提案する。
- 参考スコア(独自算出の注目度): 20.530066199565745
- License:
- Abstract: Self-supervised learning (SSL) has emerged as a crucial technique in image processing, encoding, and understanding, especially for developing today's vision foundation models that utilize large-scale datasets without annotations to enhance various downstream tasks. This study introduces a novel SSL approach, Information-Maximized Soft Variable Discretization (IMSVD), for image representation learning. Specifically, IMSVD softly discretizes each variable in the latent space, enabling the estimation of their probability distributions over training batches and allowing the learning process to be directly guided by information measures. Motivated by the MultiView assumption, we propose an information-theoretic objective function to learn transform-invariant, non-travail, and redundancy-minimized representation features. We then derive a joint-cross entropy loss function for self-supervised image representation learning, which theoretically enjoys superiority over the existing methods in reducing feature redundancy. Notably, our non-contrastive IMSVD method statistically performs contrastive learning. Extensive experimental results demonstrate the effectiveness of IMSVD on various downstream tasks in terms of both accuracy and efficiency. Thanks to our variable discretization, the embedding features optimized by IMSVD offer unique explainability at the variable level. IMSVD has the potential to be adapted to other learning paradigms. Our code is publicly available at https://github.com/niuchuangnn/IMSVD.
- Abstract(参考訳): 自己教師付き学習(SSL)は、画像処理、エンコーディング、理解において重要なテクニックとして現れており、特に、さまざまな下流タスクを強化するためにアノテーションなしで大規模なデータセットを使用する、今日のビジョン基盤モデルの開発に向いている。
本研究では,画像表現学習のための新しいSSL手法である情報最大化ソフト可変離散化(IMSVD)を提案する。
具体的には、IMSVDは、潜伏空間内の各変数をソフトに識別し、トレーニングバッチ上で確率分布を推定し、情報測定によって学習プロセスを直接ガイドできるようにする。
MultiViewの仮定により、変換不変性、非トラバスト性、冗長性最小化表現特徴を学習するための情報理論目的関数を提案する。
次に,自己教師付き画像表現学習のための共役型エントロピー損失関数を導出し,特徴冗長性を低減するための既存手法よりも理論的に優れていることを示す。
特に,我々の非コントラスト型IMSVD法は,統計的にコントラスト学習を行う。
IMSVDの様々な下流タスクに対する効果を,精度と効率の両面で実証した。
変数の離散化により、IMSVDによって最適化された埋め込み機能は、変数レベルでユニークな説明可能性を提供します。
IMSVDは他の学習パラダイムに適応する可能性がある。
私たちのコードはhttps://github.com/niuchuangnn/IMSVD.comで公開されています。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - USIM-DAL: Uncertainty-aware Statistical Image Modeling-based Dense
Active Learning for Super-resolution [47.38982697349244]
デンス回帰(Dense regression)は、画像の超解像、エンハンスメント、深さ推定などのタスクのためのコンピュータビジョンで広く使われているアプローチである。
この問題に対処するために,能動学習を高密度回帰モデルに組み込むことを提案する。
アクティブな学習により、モデルはラベル付けのための最も有益なサンプルを選択し、全体的なアノテーションコストを削減し、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2023-05-27T16:33:43Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。