Fugu-MT 論文翻訳(概要): Bi-level Doubly Variational Learning for Energy-based Latent Variable Models

論文の概要: Bi-level Doubly Variational Learning for Energy-based Latent Variable Models

arxiv url: http://arxiv.org/abs/2203.14702v1
Date: Thu, 24 Mar 2022 04:13:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 12:40:02.476166
Title: Bi-level Doubly Variational Learning for Energy-based Latent Variable Models
Title（参考訳）: エネルギーベース潜在変数モデルの2段階2変分学習
Authors: Ge Kan, Jinhu L\"u, Tian Wang, Baochang Zhang, Aichun Zhu, Lei Huang, Guodong Guo, Hichem Snoussi
Abstract要約: エネルギーベース潜在変数モデル(EBLVM)は、従来のエネルギーベースモデルよりも表現力が高い。 EBLVMの学習を容易にするために,バイレベル二重変分学習(BiDVL)を提案する。本モデルは,関連作品よりも印象的な画像生成性能を実現する。
参考スコア（独自算出の注目度）: 46.75117861209482
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Energy-based latent variable models (EBLVMs) are more expressive than conventional energy-based models. However, its potential on visual tasks are limited by its training process based on maximum likelihood estimate that requires sampling from two intractable distributions. In this paper, we propose Bi-level doubly variational learning (BiDVL), which is based on a new bi-level optimization framework and two tractable variational distributions to facilitate learning EBLVMs. Particularly, we lead a decoupled EBLVM consisting of a marginal energy-based distribution and a structural posterior to handle the difficulties when learning deep EBLVMs on images. By choosing a symmetric KL divergence in the lower level of our framework, a compact BiDVL for visual tasks can be obtained. Our model achieves impressive image generation performance over related works. It also demonstrates the significant capacity of testing image reconstruction and out-of-distribution detection.
Abstract（参考訳）: エネルギーベース潜在変数モデル(EBLVM)は、従来のエネルギーベースモデルよりも表現力が高い。しかしながら、視覚タスクのポテンシャルは、2つの難解な分布からのサンプリングを必要とする最大確率推定に基づくトレーニングプロセスによって制限される。本稿では,新しい二段階最適化フレームワークと2つのトラクタブルな変分分布に基づくバイレベル二重変分学習(BiDVL)を提案し,ESBVMの学習を容易にする。特に,画像上で深部EBLVMを学習する際の難易度に対処するため,限界エネルギー分布と構造後部からなる分離EBLVMを導出する。フレームワークの下位レベルにおける対称KL分散を選択することで、視覚タスクのためのコンパクトなBiDVLを得ることができる。本モデルは,関連作品よりも印象的な画像生成性能を実現する。また、画像再構成と分散検出をテストできることも示している。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。 Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-10T08:48:50Z)
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文参考訳（メタデータ） (2025-01-28T13:31:18Z)
LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文参考訳（メタデータ） (2024-11-09T13:03:54Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
Hyperbolic Learning with Multimodal Large Language Models [8.98815579836401]
BLIP-2アーキテクチャを用いたパラメータ(ビリオン)とトレーニングの複雑さの観点から,マルチモーダル双曲モデルを桁違いにスケールする上での課題に対処する。本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
論文参考訳（メタデータ） (2024-08-09T14:39:15Z)
Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。 4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文参考訳（メタデータ） (2024-02-22T10:19:34Z)
Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。 EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文参考訳（メタデータ） (2023-09-10T22:05:24Z)
Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文参考訳（メタデータ） (2023-08-07T07:59:56Z)
Persistently Trained, Diffusion-assisted Energy-based Models [18.135784288023928]
我々は,拡散データを導入し,持続的トレーニングを通じて拡散補助EBMと呼ばれる共同ESMを学習する。持続的に訓練されたESMは、長期安定、訓練後の画像生成、配当検出の精度の向上を同時に達成できることを示す。
論文参考訳（メタデータ） (2023-04-21T02:29:18Z)
Latent Diffusion Energy-Based Model for Interpretable Text Modeling [104.85356157724372]
本稿では,拡散モデルと潜時空間ESMの共生を変動学習フレームワークで導入する。我々は,学習した潜在空間の品質を向上させるために,情報ボトルネックと合わせて幾何学的クラスタリングに基づく正規化を開発する。
論文参考訳（メタデータ） (2022-06-13T03:41:31Z)
Bi-level Score Matching for Learning Energy-based Latent Variable Models [46.7000048886801]
スコアマッチング(SM)は、分割関数の計算を避けてエネルギーベースモデル(EBM)を学習するための魅力的なアプローチを提供する。本稿では,一般的な構造を持つEBLVMを学習するためのBi-level score matching (BiSM)法を提案する。適用可能な場合,BiSMは,広く採用されているコントラスト分岐法とSM法に匹敵することを示す。
論文参考訳（メタデータ） (2020-10-15T16:24:04Z)
ICE-BeeM: Identifiable Conditional Energy-Based Deep Models Based on Nonlinear ICA [11.919315372249802]
確率モデルの同定可能性理論を考察する。我々は,独立に修飾されたコンポーネント分析の枠組みにおけるコンポーネントの推定に,我々のモデルを利用できることを示す。
論文参考訳（メタデータ） (2020-02-26T14:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。