論文の概要: Memory in Plain Sight: Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.16750v2
- Date: Tue, 28 May 2024 11:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 04:26:52.946590
- Title: Memory in Plain Sight: Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models
- Title(参考訳): 平凡な視点での記憶 : 連想記憶と拡散モデルの不気味な展開
- Authors: Benjamin Hoover, Hendrik Strobelt, Dmitry Krotov, Judy Hoffman, Zsolt Kira, Duen Horng Chau,
- Abstract要約: 拡散モデル(DM)の生成プロセスは、最近、多くのAI生成ベンチマークに最先端を設定した。
エネルギーに基づく連想記憶(AM)の分野からのメモリ検索の数学的言語を用いたDM記述のための新しい視点を導入する。
我々は,AMから期待される経験的行動を示すDMを記録できることの証拠として,DMをエネルギーベースメモリの一種として理解することによって明らかにされる研究の機会について論じる。
- 参考スコア(独自算出の注目度): 65.08133391009838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative process of Diffusion Models (DMs) has recently set state-of-the-art on many AI generation benchmarks. Though the generative process is traditionally understood as an "iterative denoiser", there is no universally accepted language to describe it. We introduce a novel perspective to describe DMs using the mathematical language of memory retrieval from the field of energy-based Associative Memories (AMs), making efforts to keep our presentation approachable to newcomers to both of these fields. Unifying these two fields provides insight that DMs can be seen as a particular kind of AM where Lyapunov stability guarantees are bypassed by intelligently engineering the dynamics (i.e., the noise and step size schedules) of the denoising process. Finally, we present a growing body of evidence that records DMs exhibiting empirical behavior we would expect from AMs, and conclude by discussing research opportunities that are revealed by understanding DMs as a form of energy-based memory.
- Abstract(参考訳): 拡散モデル(DM)の生成プロセスは、最近、多くのAI生成ベンチマークに最先端を定めている。
生成過程は伝統的に「実証的なデノイザー」として理解されているが、それを記述するための普遍的な言語は存在しない。
本稿では,エネルギーをベースとした連想記憶(AM)分野からのメモリ検索の数学的言語を用いて,DMを記述するための新たな視点を紹介する。
これらの2つの分野を統合することで、DMは特定の種類のAMと見なすことができ、リアプノフの安定性保証は、認知過程の力学(すなわちノイズとステップサイズスケジュール)をインテリジェントに工学することでバイパスされる。
最後に、AMから期待される経験的行動を示すDMを記録できることの証拠として、DMをエネルギーベースメモリの一種として理解することによって明らかにされる研究の機会について論じる。
関連論文リスト
- Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - A Comprehensive Survey on Knowledge Distillation of Diffusion Models [0.0]
拡散モデル(DM)はニューラルネットワークを用いてスコア関数を指定する。
本チュートリアルは, DMの蒸留法を応用したり, この分野の研究プロジェクトに乗り出したいと願う, 生成モデルの基本的知識を持つ個人を対象としている。
論文 参考訳(メタデータ) (2023-04-09T15:49:28Z) - A Biologically-Inspired Dual Stream World Model [0.456877715768796]
中間側頭葉(MTL)は哺乳類の体験構築システムであると考えられている。
本稿では,高次元観測から学習し,それらを文脈やコンテンツストリームに分解する新たなモデルであるDual Stream World Model (DSWM)を提案する。
この表現は強化学習基盤関数として有用であり,ダイナ様更新を用いた政策学習を支援するために生成モデルが有用であることを示す。
論文 参考訳(メタデータ) (2022-09-16T16:27:48Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。