論文の概要: Generative Models: What Do They Know? Do They Know Things? Let's Find Out!
- arxiv url: http://arxiv.org/abs/2311.17137v3
- Date: Wed, 16 Oct 2024 07:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:10.361339
- Title: Generative Models: What Do They Know? Do They Know Things? Let's Find Out!
- Title(参考訳): 生成モデル: 彼らは何を知っているのか?何を知っているのか?
- Authors: Xiaodan Du, Nicholas Kolkin, Greg Shakhnarovich, Anand Bhattad,
- Abstract要約: 小型のローランド適応器 (LoRA) は, 固有画像深度, 正規度, アルベド, シェーディングアクロスの異なる発電機を復元可能であることを示す。
また,生成モデルの品質と,制御実験により得られた内生学の精度との間には正の相関関係が認められた。
- 参考スコア(独自算出の注目度): 9.150015362687876
- License:
- Abstract: Generative models excel at mimicking real scenes, suggesting they might inherently encode important intrinsic scene properties. In this paper, we aim to explore the following key questions: (1) What intrinsic knowledge do generative models like GANs, Autoregressive models, and Diffusion models encode? (2) Can we establish a general framework to recover intrinsic representations from these models, regardless of their architecture or model type? (3) How minimal can the required learnable parameters and labeled data be to successfully recover this knowledge? (4) Is there a direct link between the quality of a generative model and the accuracy of the recovered scene intrinsics? Our findings indicate that a small Low-Rank Adaptators (LoRA) can recover intrinsic images-depth, normals, albedo and shading-across different generators (Autoregressive, GANs and Diffusion) while using the same decoder head that generates the image. As LoRA is lightweight, we introduce very few learnable parameters (as few as 0.04% of Stable Diffusion model weights for a rank of 2), and we find that as few as 250 labeled images are enough to generate intrinsic images with these LoRA modules. Finally, we also show a positive correlation between the generative model's quality and the accuracy of the recovered intrinsics through control experiments.
- Abstract(参考訳): 生成モデルは実際のシーンを模倣することに優れており、本質的に重要な固有のシーン特性をコード化する可能性があることを示唆している。
本稿では,(1) GAN, Autoregressive Model, Diffusion Modelといった生成モデルに固有の知識とは何がエンコードされているのか,という課題について考察する。
2) アーキテクチャやモデルタイプに関係なく,これらのモデルから本質的な表現を復元するための一般的なフレームワークを確立できるだろうか?
(3)学習可能なパラメータとラベル付きデータをどの程度最小化すれば、この知識を回復できるのか?
(4)生成モデルの品質と再生シーン内在の精度に直接的な関連性はあるか?
画像を生成するデコーダヘッドを用いて,小さなローランド適応器 (LoRA) を用いて, 内在画像深度, 正規値, アルベド, シェーディングアクロスの異なるジェネレータ (Autoregressive, GANs, Diffusion) を回収できることが示唆された。
LoRAは軽量であるため,2級の安定拡散モデル重み付けの0.04%に満たない)学習可能なパラメータはほとんど導入されず,250以上のラベル付き画像がこれらのLORAモジュールで固有の画像を生成するのに十分であることがわかった。
最後に, 生成モデルの品質と, 制御実験により得られた内生学の精度との間には, 正の相関関係が認められた。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers? [39.31679737754048]
ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T10:25:06Z) - How to Trace Latent Generative Model Generated Images without Artificial Watermark? [88.04880564539836]
潜在生成モデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。
検査されたモデルの生成された画像をトレースするために,レイトタントトラッカーと呼ばれる潜時反転に基づく手法を提案する。
提案手法は,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることを示す。
論文 参考訳(メタデータ) (2024-05-22T05:33:47Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias
Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。
これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。
そこで我々はReveal to Revise (R2R)を提案する。
論文 参考訳(メタデータ) (2023-03-22T15:23:09Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。