論文の概要: Memory in Plain Sight: A Survey of the Uncanny Resemblances between
Diffusion Models and Associative Memories
- arxiv url: http://arxiv.org/abs/2309.16750v1
- Date: Thu, 28 Sep 2023 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:45:23.809486
- Title: Memory in Plain Sight: A Survey of the Uncanny Resemblances between
Diffusion Models and Associative Memories
- Title(参考訳): 平凡な視点での記憶:拡散モデルと連想記憶の間の不気味な関係に関する調査
- Authors: Benjamin Hoover, Hendrik Strobelt, Dmitry Krotov, Judy Hoffman, Zsolt
Kira, Duen Horng Chau
- Abstract要約: 拡散モデル(DM)は、最近、多くの世代ベンチマークで最先端を定めている。
数学的に記述する方法は無数にあるため、それらがどのように機能するかを簡単に理解することは困難である。
この調査は、Associative Memories (AMs) という、非常に関連性が高く、しばしば見過ごされるエネルギーベースのモデルとの数学的関係を明らかにする。
- 参考スコア(独自算出の注目度): 68.96121108376244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) have recently set state-of-the-art on many generation
benchmarks. However, there are myriad ways to describe them mathematically,
which makes it difficult to develop a simple understanding of how they work. In
this survey, we provide a concise overview of DMs from the perspective of
dynamical systems and Ordinary Differential Equations (ODEs) which exposes a
mathematical connection to the highly related yet often overlooked class of
energy-based models, called Associative Memories (AMs). Energy-based AMs are a
theoretical framework that behave much like denoising DMs, but they enable us
to directly compute a Lyapunov energy function on which we can perform gradient
descent to denoise data. We then summarize the 40 year history of energy-based
AMs, beginning with the original Hopfield Network, and discuss new research
directions for AMs and DMs that are revealed by characterizing the extent of
their similarities and differences
- Abstract(参考訳): 拡散モデル(DM)は、最近、多くの世代ベンチマークで最先端を定めている。
しかし、数学的に記述する方法は無数にあり、それらがどのように機能するかを簡単に理解することは困難である。
本稿では,力学系の観点からのDMの簡潔な概要と,高関連であるがしばしば見落とされがちなエネルギーベースモデル(Associative Memories (AMs))との数学的関係を明らかにする正規微分方程式(ODE)について述べる。
エネルギーベースのAMは、DMをデノナイズする理論的な枠組みであるが、これはデータをデノナイズするために勾配降下を行うことができるリプノフエネルギー関数を直接計算することができる。
次に,元々のホップフィールドネットワークから始まった40年間のエネルギーベースのamsの歴史を要約し,その類似性と相違点を特徴付けることで明らかにされるamsとdmsの新しい研究方向について考察する。
関連論文リスト
- Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - A Comprehensive Survey on Knowledge Distillation of Diffusion Models [0.0]
拡散モデル(DM)はニューラルネットワークを用いてスコア関数を指定する。
本チュートリアルは, DMの蒸留法を応用したり, この分野の研究プロジェクトに乗り出したいと願う, 生成モデルの基本的知識を持つ個人を対象としている。
論文 参考訳(メタデータ) (2023-04-09T15:49:28Z) - A Biologically-Inspired Dual Stream World Model [0.456877715768796]
中間側頭葉(MTL)は哺乳類の体験構築システムであると考えられている。
本稿では,高次元観測から学習し,それらを文脈やコンテンツストリームに分解する新たなモデルであるDual Stream World Model (DSWM)を提案する。
この表現は強化学習基盤関数として有用であり,ダイナ様更新を用いた政策学習を支援するために生成モデルが有用であることを示す。
論文 参考訳(メタデータ) (2022-09-16T16:27:48Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。