Fugu-MT 論文翻訳(概要): Generative Models: What do they know? Do they know things? Let's find out!

論文の概要: Generative Models: What do they know? Do they know things? Let's find out!

arxiv url: http://arxiv.org/abs/2311.17137v1
Date: Tue, 28 Nov 2023 18:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 23:40:44.479308
Title: Generative Models: What do they know? Do they know things? Let's find out!
Title（参考訳）: 生成モデル: 彼らは何を知っているのか? 彼らは何か知ってるの? 見つけよう!
Authors: Xiaodan Du, Nicholas Kolkin, Greg Shakhnarovich, Anand Bhattad
Abstract要約: 生成モデルが内部的に高品質なシーン固有写像を生成するという説得力のある証拠を提示する。 Intrinsic LoRAは、任意の生成モデルをシーン固有の予測子に変換する汎用的なプラグアンドプレイアプローチである。提案手法では,鍵となる特徴写像のローランド適応(LoRA)を用い,生成モデルの総パラメータの0.6%未満を新たに学習した。
参考スコア（独自算出の注目度）: 9.816556961936193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative models have been shown to be capable of synthesizing highly detailed and realistic images. It is natural to suspect that they implicitly learn to model some image intrinsics such as surface normals, depth, or shadows. In this paper, we present compelling evidence that generative models indeed internally produce high-quality scene intrinsic maps. We introduce Intrinsic LoRA (I LoRA), a universal, plug-and-play approach that transforms any generative model into a scene intrinsic predictor, capable of extracting intrinsic scene maps directly from the original generator network without needing additional decoders or fully fine-tuning the original network. Our method employs a Low-Rank Adaptation (LoRA) of key feature maps, with newly learned parameters that make up less than 0.6% of the total parameters in the generative model. Optimized with a small set of labeled images, our model-agnostic approach adapts to various generative architectures, including Diffusion models, GANs, and Autoregressive models. We show that the scene intrinsic maps produced by our method compare well with, and in some cases surpass those generated by leading supervised techniques.
Abstract（参考訳）: 生成モデルは高精細でリアルな画像を合成できることが示されている。表面の正常や深度、影といった画像の内在を暗黙的にモデル化することを学ぶことは、疑わしい。本稿では,生成モデルが内在的に高品質なシーン内在的地図を生成するという説得力のある証拠を示す。 Intrinsic LoRA(I LoRA)は、任意の生成モデルをシーン固有の予測子に変換する汎用的なプラグイン・アンド・プレイ方式であり、デコーダの追加やオリジナルネットワークを完全に微調整することなく、オリジナルジェネレータネットワークから直接固有のシーンマップを抽出することができる。提案手法では,重要特徴マップの低ランク適応 (lora) を用いて,生成モデルにおけるパラメータ全体の0.6%未満のパラメータを新たに学習した。ラベル付き画像の小さなセットで最適化された我々のモデル非依存のアプローチは、拡散モデル、GAN、自動回帰モデルなど、様々な生成アーキテクチャに適応する。本研究では,本手法が生成するシーン固有マップと,指導手法が生成するシーン固有マップとを比較した。

関連論文リスト

Generative Modeling of Weights: Generalization or Memorization? [5.365909921563036]
効率的なニューラルネットワークの重み付けのために生成モデルが検討されている。本研究では,新しいモデル重みを生成できる4つの手法について検討する。これらの手法は主として記憶によって重みを合成する。
論文参考訳（メタデータ） (2025-06-09T17:58:36Z)
RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [29.909743116379936]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。 RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文参考訳（メタデータ） (2025-02-02T16:41:54Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers? [39.31679737754048]
ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
論文参考訳（メタデータ） (2024-05-28T10:25:06Z)
How to Trace Latent Generative Model Generated Images without Artificial Watermark? [88.04880564539836]
潜在生成モデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。検査されたモデルの生成された画像をトレースするために,レイトタントトラッカーと呼ばれる潜時反転に基づく手法を提案する。提案手法は,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることを示す。
論文参考訳（メタデータ） (2024-05-22T05:33:47Z)
Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文参考訳（メタデータ） (2023-08-31T14:55:30Z)
Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。そこで我々はReveal to Revise (R2R)を提案する。
論文参考訳（メタデータ） (2023-03-22T15:23:09Z)
Natural scene reconstruction from fMRI signals using generative latent diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文参考訳（メタデータ） (2023-03-09T15:24:26Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文参考訳（メタデータ） (2021-06-25T05:17:55Z)
Understanding invariance via feedforward inversion of discriminatively trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文参考訳（メタデータ） (2021-03-15T17:56:06Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。