論文の概要: Antagonising explanation and revealing bias directly through sequencing
and multimodal inference
- arxiv url: http://arxiv.org/abs/2309.12345v1
- Date: Fri, 25 Aug 2023 22:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:54:31.857548
- Title: Antagonising explanation and revealing bias directly through sequencing
and multimodal inference
- Title(参考訳): シークエンシングとマルチモーダル推論による対向的説明とバイアスの露呈
- Authors: Lu\'is Arandas, Mick Grierson and Miguel Carvalhais
- Abstract要約: 深層生成モデルは、例えば拡散モデルのような学習された表現に従ってデータを生成する。
生成モデリングの将来、すなわち映画やオーディオヴィジュアルアートは、未来を計算するプロセスとして拡散システムを扱うことで恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 0.098314893665023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep generative models produce data according to a learned representation,
e.g. diffusion models, through a process of approximation computing possible
samples. Approximation can be understood as reconstruction and the large
datasets used to train models as sets of records in which we represent the
physical world with some data structure (photographs, audio recordings,
manuscripts). During the process of reconstruction, e.g., image frames develop
each timestep towards a textual input description. While moving forward in
time, frame sets are shaped according to learned bias and their production, we
argue here, can be considered as going back in time; not by inspiration on the
backward diffusion process but acknowledging culture is specifically marked in
the records. Futures of generative modelling, namely in film and audiovisual
arts, can benefit by dealing with diffusion systems as a process to compute the
future by inevitably being tied to the past, if acknowledging the records as to
capture fields of view at a specific time, and to correlate with our own finite
memory ideals. Models generating new data distributions can target video
production as signal processors and by developing sequences through timelines
we ourselves also go back to decade-old algorithmic and multi-track
methodologies revealing the actual predictive failure of contemporary
approaches to synthesis in moving image, both as relevant to composition and
not explanatory.
- Abstract(参考訳): 深層生成モデル(deep generative models)は、可能なサンプルを近似計算するプロセスを通じて、学習した表現(例えば拡散モデル)に従ってデータを生成する。
近似は、再構成として理解することができ、データ構造(写真、オーディオ記録、原稿)で物理世界を表現するための一連の記録としてモデルをトレーニングするために使用される大きなデータセットである。
再構築の過程では、例えば、画像フレームが各時間ステップをテキスト入力記述に向けて展開する。
時間とともに進む一方で、フレームセットは学習されたバイアスとそれらの生産に基づいて形作られており、ここでは、後方拡散プロセスへのインスピレーションではなく、認識する文化が特に記録に刻まれている、と論じる。
生成モデリングの将来、すなわち映画やオーディオヴィジュアルアートは、特定の時間で視野を捉え、我々の有限メモリイデアルと相関する記録を認識すれば、必然的に過去と結びつくことによって未来を計算するプロセスとして拡散システムを扱うことで恩恵を受けることができる。
新しいデータ分布を生成するモデルは、信号プロセッサとしてビデオ生成をターゲットとし、タイムラインを通じてシーケンスを開発することによって、私たちはまた、10年前のアルゴリズムとマルチトラックの方法論を振り返って、コンポジションと説明的ではなく、動画像合成に対する現代的アプローチの実際の予測的失敗を明らかにする。
関連論文リスト
- Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Frame by Familiar Frame: Understanding Replication in Video Diffusion Models [28.360705633967353]
ビデオ生成は、その高次元の性質、トレーニングデータの不足、そして関連する複雑な関係により、より大きな課題をもたらす。
さらに制約のあるデータセットで動作するビデオ拡散モデルは、トレーニングセットからサンプルを複製する傾向にある。
本稿では,ビデオ拡散モデルにおけるサンプル複製現象の系統的研究を行う。
論文 参考訳(メタデータ) (2024-03-28T17:15:23Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。