論文の概要: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey
- arxiv url: http://arxiv.org/abs/2409.18214v1
- Date: Thu, 26 Sep 2024 18:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 06:57:09.778441
- Title: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey
- Title(参考訳): 信頼できるテキストと画像の拡散モデル:タイムリーで焦点を絞った調査
- Authors: Yi Zhang, Zhen Chen, Chih-Hong Cheng, Wenjie Ruan, Xiaowei Huang, Dezong Zhao, David Flynn, Siddartha Khastgir, Xingyu Zhao,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
彼らの人気が高まったことで、信頼性の重要な非機能的特性に関する倫理的・社会的懸念が高まった。
- 参考スコア(独自算出の注目度): 22.930713650452894
- License:
- Abstract: Text-to-Image (T2I) Diffusion Models (DMs) have garnered widespread attention for their impressive advancements in image generation. However, their growing popularity has raised ethical and social concerns related to key non-functional properties of trustworthiness, such as robustness, fairness, security, privacy, factuality, and explainability, similar to those in traditional deep learning (DL) tasks. Conventional approaches for studying trustworthiness in DL tasks often fall short due to the unique characteristics of T2I DMs, e.g., the multi-modal nature. Given the challenge, recent efforts have been made to develop new methods for investigating trustworthiness in T2I DMs via various means, including falsification, enhancement, verification \& validation and assessment. However, there is a notable lack of in-depth analysis concerning those non-functional properties and means. In this survey, we provide a timely and focused review of the literature on trustworthy T2I DMs, covering a concise-structured taxonomy from the perspectives of property, means, benchmarks and applications. Our review begins with an introduction to essential preliminaries of T2I DMs, and then we summarise key definitions/metrics specific to T2I tasks and analyses the means proposed in recent literature based on these definitions/metrics. Additionally, we review benchmarks and domain applications of T2I DMs. Finally, we highlight the gaps in current research, discuss the limitations of existing methods, and propose future research directions to advance the development of trustworthy T2I DMs. Furthermore, we keep up-to-date updates in this field to track the latest developments and maintain our GitHub repository at: https://github.com/wellzline/Trustworthy_T2I_DMs
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
しかし、彼らの人気は、従来のディープラーニング(DL)タスクと同様、堅牢性、公正性、セキュリティ、プライバシ、事実性、説明可能性といった、信頼性の重要な非機能的特性に関連する倫理的・社会的関心を高めている。
従来のDLタスクの信頼性研究手法では,T2I DMの特異な特性,例えばマルチモーダルな性質が原因で,不足することが多い。
この課題を踏まえ、近年のT2I DMの信頼性調査手法の開発に、ファルシフィケーション、エンハンスメント、検証・検証、評価など、様々な手法を用いて取り組んでいる。
しかし、これらの機能的でない性質や手段に関する詳細な分析が欠如している。
本調査では,信頼性の高いT2I DMに関する文献をタイムリーかつ集中的にレビューし,特性,手段,ベンチマーク,アプリケーションの観点から,簡潔な分類を網羅する。
本稿では,T2I DM の基本前提について紹介し,T2I タスクに特有のキー定義/指標を要約し,これらの定義/指標に基づいて近年の文献で提案されている方法を分析する。
さらに、T2I DMのベンチマークとドメイン適用について検討する。
最後に、現在の研究のギャップを強調し、既存の手法の限界について議論し、信頼性の高いT2I DMの開発を進めるための今後の研究方向性を提案する。
さらに、この領域の最新のアップデートを更新して、最新の開発を追跡し、GitHubリポジトリを次のようにメンテナンスしています。
関連論文リスト
- FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models [7.30796695035169]
FAIntbenchは、テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスの総合的かつ正確なベンチマークである。
我々はFAIntbenchを7種類の大規模T2Iモデルの評価に適用し,人間による評価を行った。
その結果, FAIntbenchが種々のバイアスの同定に有効であった。
論文 参考訳(メタデータ) (2024-05-28T04:18:00Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScore (TS2) はプロンプトとセットの誤画像を含む意味的誤りグラフのキュレートされた集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z) - Memory in Plain Sight: Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models [65.08133391009838]
拡散モデル(DM)の生成プロセスは、最近、多くのAI生成ベンチマークに最先端を設定した。
エネルギーに基づく連想記憶(AM)の分野からのメモリ検索の数学的言語を用いたDM記述のための新しい視点を導入する。
我々は,AMから期待される経験的行動を示すDMを記録できることの証拠として,DMをエネルギーベースメモリの一種として理解することによって明らかにされる研究の機会について論じる。
論文 参考訳(メタデータ) (2023-09-28T17:57:09Z) - Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks [22.651626059348356]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。
1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
論文 参考訳(メタデータ) (2023-06-16T00:43:35Z) - Measuring the Robustness of NLP Models to Domain Shifts [50.89876374569385]
ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。
現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。
我々は、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)を相補的な視点として使うべきであると論じる。
論文 参考訳(メタデータ) (2023-05-31T20:25:08Z) - Artificial Intelligence-Based Methods for Precision Medicine: Diabetes
Risk Prediction [0.3425341633647624]
このスクーピングレビューは、T2DMリスク予測のためのAIベースのモデルに関する既存の文献を分析する。
従来の機械学習モデルは、ディープラーニングモデルよりも一般的だった。
単調モデルとマルチモーダルモデルの両方が有望な性能を示し、後者は前者を上回った。
論文 参考訳(メタデータ) (2023-05-24T14:45:54Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。