Fugu-MT 論文翻訳(概要): Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance

論文の概要: Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance

arxiv url: http://arxiv.org/abs/2302.10305v1
Date: Fri, 10 Feb 2023 11:17:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 14:17:34.020163
Title: Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance
Title（参考訳）: 生成拡散誘導レンズによる多モード対象物の解析
Authors: Chaerin Kong, Nojun Kwak
Abstract要約: 我々は,分類器誘導拡散モデルが,分類器が提供する意味的信号を反映した画像を生成するという事実を活用する。具体的には, コントラスト, マッチング, キャプションの損失を意味的信号の観点から比較し, 解析だけでなく, 生成指導の質も向上する単純なベースラインを導入する。
参考スコア（独自算出の注目度）: 34.27851973031995
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent years have witnessed astonishing advances in the field of multimodal representation learning, with contrastive learning being the cornerstone for major breakthroughs. Latest works delivered further improvements by incorporating different objectives such as masked modeling and captioning into the frameworks, but our understanding on how these objectives facilitate learning remains vastly incomplete. In this paper, we leverage the fact that classifier-guided diffusion models generate images that reflect the semantic signals provided by the classifier to study the characteristics of multimodal learning objectives. Specifically, we compare contrastive, matching and captioning loss in terms of their semantic signals, and introduce a simple baseline that not only supports our analyses but also improves the quality of generative guidance in a straightforward manner.
Abstract（参考訳）: 近年、マルチモーダル表現学習の分野で驚くべき進歩が見られ、対照的な学習が大きなブレークスルーの基盤となっている。最新の成果は、マスキングモデリングやキャプションといったさまざまな目的をフレームワークに組み込むことによって、さらなる改善を実現しています。本稿では,分類器誘導拡散モデルが,分類器が提供する意味的信号を反映した画像を生成し,マルチモーダル学習目標の特性について検討する。具体的には, コントラスト, マッチング, キャプションの損失を, 意味的信号の観点で比較し, 分析だけでなく, 生成指導の質を簡便に向上させる単純なベースラインを導入する。

関連論文リスト

Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning [23.129998055266245]
現在の擬似ラベル戦略は、しばしば意味情報と視覚情報のミスマッチに苦しむ。 textbfAugmenting Dtextbfiscriminative textbfRichness via Diffusions (AiR)
論文参考訳（メタデータ） (2025-04-16T10:09:45Z)
Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文参考訳（メタデータ） (2024-12-10T20:36:49Z)
Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。 Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。 CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文参考訳（メタデータ） (2024-09-03T12:34:21Z)
Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文参考訳（メタデータ） (2024-08-08T17:20:08Z)
Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文参考訳（メタデータ） (2024-03-30T02:55:49Z)
A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。自己教師型学習のための生成潜在変数モデルを提案する。対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文参考訳（メタデータ） (2024-02-02T13:31:17Z)
Objectives Matter: Understanding the Impact of Self-Supervised Objectives on Vision Transformer Representations [13.437097059358067]
本研究では,再建型学習機能と共同埋め込み型学習機能との相違について述べる。結合埋め込み特性は,異なる目的が異なる情報分布を駆動するため,分類のための線形プローブ転送の精度が向上することがわかった。
論文参考訳（メタデータ） (2023-04-25T18:48:23Z)
Improving the Modality Representation with Multi-View Contrastive Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。 3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文参考訳（メタデータ） (2022-10-28T01:25:16Z)
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文参考訳（メタデータ） (2022-10-21T16:07:00Z)
Learning Transferable Adversarial Robust Representations via Multi-view Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-10-19T11:48:01Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)
Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文参考訳（メタデータ） (2020-02-03T06:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。