論文の概要: Antagonising explanation and revealing bias directly through sequencing
and multimodal inference
- arxiv url: http://arxiv.org/abs/2309.12345v1
- Date: Fri, 25 Aug 2023 22:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:54:31.857548
- Title: Antagonising explanation and revealing bias directly through sequencing
and multimodal inference
- Title(参考訳): シークエンシングとマルチモーダル推論による対向的説明とバイアスの露呈
- Authors: Lu\'is Arandas, Mick Grierson and Miguel Carvalhais
- Abstract要約: 深層生成モデルは、例えば拡散モデルのような学習された表現に従ってデータを生成する。
生成モデリングの将来、すなわち映画やオーディオヴィジュアルアートは、未来を計算するプロセスとして拡散システムを扱うことで恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 0.098314893665023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep generative models produce data according to a learned representation,
e.g. diffusion models, through a process of approximation computing possible
samples. Approximation can be understood as reconstruction and the large
datasets used to train models as sets of records in which we represent the
physical world with some data structure (photographs, audio recordings,
manuscripts). During the process of reconstruction, e.g., image frames develop
each timestep towards a textual input description. While moving forward in
time, frame sets are shaped according to learned bias and their production, we
argue here, can be considered as going back in time; not by inspiration on the
backward diffusion process but acknowledging culture is specifically marked in
the records. Futures of generative modelling, namely in film and audiovisual
arts, can benefit by dealing with diffusion systems as a process to compute the
future by inevitably being tied to the past, if acknowledging the records as to
capture fields of view at a specific time, and to correlate with our own finite
memory ideals. Models generating new data distributions can target video
production as signal processors and by developing sequences through timelines
we ourselves also go back to decade-old algorithmic and multi-track
methodologies revealing the actual predictive failure of contemporary
approaches to synthesis in moving image, both as relevant to composition and
not explanatory.
- Abstract(参考訳): 深層生成モデル(deep generative models)は、可能なサンプルを近似計算するプロセスを通じて、学習した表現(例えば拡散モデル)に従ってデータを生成する。
近似は、再構成として理解することができ、データ構造(写真、オーディオ記録、原稿)で物理世界を表現するための一連の記録としてモデルをトレーニングするために使用される大きなデータセットである。
再構築の過程では、例えば、画像フレームが各時間ステップをテキスト入力記述に向けて展開する。
時間とともに進む一方で、フレームセットは学習されたバイアスとそれらの生産に基づいて形作られており、ここでは、後方拡散プロセスへのインスピレーションではなく、認識する文化が特に記録に刻まれている、と論じる。
生成モデリングの将来、すなわち映画やオーディオヴィジュアルアートは、特定の時間で視野を捉え、我々の有限メモリイデアルと相関する記録を認識すれば、必然的に過去と結びつくことによって未来を計算するプロセスとして拡散システムを扱うことで恩恵を受けることができる。
新しいデータ分布を生成するモデルは、信号プロセッサとしてビデオ生成をターゲットとし、タイムラインを通じてシーケンスを開発することによって、私たちはまた、10年前のアルゴリズムとマルチトラックの方法論を振り返って、コンポジションと説明的ではなく、動画像合成に対する現代的アプローチの実際の予測的失敗を明らかにする。
関連論文リスト
- Frame by Familiar Frame: Understanding Replication in Video Diffusion Models [28.360705633967353]
ビデオ生成は、その高次元の性質、トレーニングデータの不足、そして関連する複雑な関係により、より大きな課題をもたらす。
さらに制約のあるデータセットで動作するビデオ拡散モデルは、トレーニングセットからサンプルを複製する傾向にある。
本稿では,ビデオ拡散モデルにおけるサンプル複製現象の系統的研究を行う。
論文 参考訳(メタデータ) (2024-03-28T17:15:23Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。