Fugu-MT 論文翻訳(概要): Benchmarking Counterfactual Image Generation

論文の概要: Benchmarking Counterfactual Image Generation

arxiv url: http://arxiv.org/abs/2403.20287v4
Date: Wed, 27 Nov 2024 13:49:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:50.503816
Title: Benchmarking Counterfactual Image Generation
Title（参考訳）: 対実画像生成のベンチマーク
Authors: Thomas Melistas, Nikos Spyrou, Nefeli Gkouti, Pedro Sanchez, Athanasios Vlontzos, Yannis Panagakis, Giorgos Papanastasiou, Sotirios A. Tsaftaris,
Abstract要約: ジェネレーティブAIは、視覚コンテンツ編集に革命をもたらし、画像やビデオの編集に力を入れている。自然画像や医用画像などの領域で現実的な編集を行うには、因果関係を尊重しなければならない。本稿では,反実画像生成手法の徹底的なベンチマークを行うための比較フレームワークを提案する。
参考スコア（独自算出の注目度）: 22.573830532174956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI has revolutionised visual content editing, empowering users to effortlessly modify images and videos. However, not all edits are equal. To perform realistic edits in domains such as natural image or medical imaging, modifications must respect causal relationships inherent to the data generation process. Such image editing falls into the counterfactual image generation regime. Evaluating counterfactual image generation is substantially complex: not only it lacks observable ground truths, but also requires adherence to causal constraints. Although several counterfactual image generation methods and evaluation metrics exist, a comprehensive comparison within a unified setting is lacking. We present a comparison framework to thoroughly benchmark counterfactual image generation methods. We integrate all models that have been used for the task at hand and expand them to novel datasets and causal graphs, demonstrating the superiority of Hierarchical VAEs across most datasets and metrics. Our framework is implemented in a user-friendly Python package that can be extended to incorporate additional SCMs, causal methods, generative models, and datasets for the community to build on. Code: https://github.com/gulnazaki/counterfactual-benchmark.
Abstract（参考訳）: ジェネレーティブAIは、視覚コンテンツ編集に革命をもたらし、画像やビデオの編集に力を入れている。しかし、全ての編集が等しいわけではない。自然画像や医用画像などの領域で現実的な編集を行うには、データ生成プロセスに固有の因果関係を尊重する必要がある。このような画像編集は、反現実的な画像生成体制に該当する。反ファクト画像生成の評価はかなり複雑で、観測可能な基底の真理を欠いているだけでなく、因果的制約の遵守も必要である。いくつかの反ファクト画像生成手法と評価指標が存在するが、統合された設定における包括的な比較は欠落している。本稿では,反実画像生成手法の徹底的なベンチマークを行うための比較フレームワークを提案する。タスクに使用したすべてのモデルを統合し、新しいデータセットや因果グラフに拡張し、ほとんどのデータセットやメトリクスにまたがる階層的VAEの優位性を実証します。我々のフレームワークはユーザフレンドリなPythonパッケージに実装されており、コミュニティが構築するための追加のSCM、因果メソッド、生成モデル、データセットを組み込むように拡張できます。コード:https://github.com/gulnazaki/counterfactual-benchmark

関連論文リスト

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
ImagenHub: Standardizing the evaluation of conditional image generation models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文参考訳（メタデータ） (2023-10-02T19:41:42Z)
Benchmarking Robustness to Text-Guided Corruptions [0.0]
拡散モデルを用いて異なる領域の画像を編集する。我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。畳み込みモデルはトランスフォーマーアーキテクチャよりも堅牢である。
論文参考訳（メタデータ） (2023-04-06T09:40:02Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文参考訳（メタデータ） (2021-12-09T18:59:21Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Image Scene Graph Generation (SGG) Benchmark [58.33119409657256]
画像シーングラフ生成(オブジェクト、関係検出)への関心が高まっている。優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果と直接比較することができない。我々は,マスマルクン・ベンチマークといくつかの人気モデルに基づく,待望のシーングラフ生成ベンチマークを開発した。
論文参考訳（メタデータ） (2021-07-27T05:10:09Z)
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2021-04-07T09:41:52Z)
Diverse Single Image Generation with Controllable Global Structure though Self-Attention [1.2522889958051286]
我々は、生成的敵ネットワークを用いて、グローバルなコンテキストを必要とする画像を生成する方法を示す。我々の結果は、特にグローバルなコンテキストを必要とする画像の生成において、最先端技術よりも視覚的に優れている。ピクセルの平均標準偏差を用いて測定した画像生成の多様性も良好である。
論文参考訳（メタデータ） (2021-02-09T11:52:48Z)
Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文参考訳（メタデータ） (2020-07-01T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。