Fugu-MT 論文翻訳(概要): Information-Maximized Soft Variable Discretization for Self-Supervised Image Representation Learning

論文の概要: Information-Maximized Soft Variable Discretization for Self-Supervised Image Representation Learning

arxiv url: http://arxiv.org/abs/2501.03469v1
Date: Tue, 07 Jan 2025 02:10:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.929776
Title: Information-Maximized Soft Variable Discretization for Self-Supervised Image Representation Learning
Title（参考訳）: 自己監督型画像表現学習のための情報最大化ソフト可変離散化
Authors: Chuang Niu, Wenjun Xia, Hongming Shan, Ge Wang,
Abstract要約: IMSVDは、潜伏空間内の各変数をソフトに識別する。本稿では,変換不変性,非トラバス性,冗長性最小化表現特徴を学習するための情報理論的目的関数を提案する。
参考スコア（独自算出の注目度）: 20.530066199565745
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning (SSL) has emerged as a crucial technique in image processing, encoding, and understanding, especially for developing today's vision foundation models that utilize large-scale datasets without annotations to enhance various downstream tasks. This study introduces a novel SSL approach, Information-Maximized Soft Variable Discretization (IMSVD), for image representation learning. Specifically, IMSVD softly discretizes each variable in the latent space, enabling the estimation of their probability distributions over training batches and allowing the learning process to be directly guided by information measures. Motivated by the MultiView assumption, we propose an information-theoretic objective function to learn transform-invariant, non-travail, and redundancy-minimized representation features. We then derive a joint-cross entropy loss function for self-supervised image representation learning, which theoretically enjoys superiority over the existing methods in reducing feature redundancy. Notably, our non-contrastive IMSVD method statistically performs contrastive learning. Extensive experimental results demonstrate the effectiveness of IMSVD on various downstream tasks in terms of both accuracy and efficiency. Thanks to our variable discretization, the embedding features optimized by IMSVD offer unique explainability at the variable level. IMSVD has the potential to be adapted to other learning paradigms. Our code is publicly available at https://github.com/niuchuangnn/IMSVD.
Abstract（参考訳）: 自己教師付き学習(SSL)は、画像処理、エンコーディング、理解において重要なテクニックとして現れており、特に、さまざまな下流タスクを強化するためにアノテーションなしで大規模なデータセットを使用する、今日のビジョン基盤モデルの開発に向いている。本研究では,画像表現学習のための新しいSSL手法である情報最大化ソフト可変離散化(IMSVD)を提案する。具体的には、IMSVDは、潜伏空間内の各変数をソフトに識別し、トレーニングバッチ上で確率分布を推定し、情報測定によって学習プロセスを直接ガイドできるようにする。 MultiViewの仮定により、変換不変性、非トラバスト性、冗長性最小化表現特徴を学習するための情報理論目的関数を提案する。次に,自己教師付き画像表現学習のための共役型エントロピー損失関数を導出し,特徴冗長性を低減するための既存手法よりも理論的に優れていることを示す。特に,我々の非コントラスト型IMSVD法は,統計的にコントラスト学習を行う。 IMSVDの様々な下流タスクに対する効果を,精度と効率の両面で実証した。変数の離散化により、IMSVDによって最適化された埋め込み機能は、変数レベルでユニークな説明可能性を提供します。 IMSVDは他の学習パラダイムに適応する可能性がある。私たちのコードはhttps://github.com/niuchuangnn/IMSVD.comで公開されています。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。提案手法は,様々な設定において従来手法よりも常に優れていた。
論文参考訳（メタデータ） (2025-03-06T09:09:18Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。 13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文参考訳（メタデータ） (2025-02-13T09:04:28Z)
Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文参考訳（メタデータ） (2024-12-26T11:46:22Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
USIM-DAL: Uncertainty-aware Statistical Image Modeling-based Dense Active Learning for Super-resolution [47.38982697349244]
デンス回帰(Dense regression)は、画像の超解像、エンハンスメント、深さ推定などのタスクのためのコンピュータビジョンで広く使われているアプローチである。この問題に対処するために,能動学習を高密度回帰モデルに組み込むことを提案する。アクティブな学習により、モデルはラベル付けのための最も有益なサンプルを選択し、全体的なアノテーションコストを削減し、パフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2023-05-27T16:33:43Z)
ArCL: Enhancing Contrastive Learning with Augmentation-Robust Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-02T09:26:20Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-07-16T00:15:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。