論文の概要: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey
- arxiv url: http://arxiv.org/abs/2409.18214v1
- Date: Thu, 26 Sep 2024 18:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:21:45.172647
- Title: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey
- Title(参考訳): 信頼できるテキストと画像の拡散モデル:タイムリーで焦点を絞った調査
- Authors: Yi Zhang, Zhen Chen, Chih-Hong Cheng, Wenjie Ruan, Xiaowei Huang, Dezong Zhao, David Flynn, Siddartha Khastgir, Xingyu Zhao,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
彼らの人気が高まったことで、信頼性の重要な非機能的特性に関する倫理的・社会的懸念が高まった。
- 参考スコア(独自算出の注目度): 22.930713650452894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) Diffusion Models (DMs) have garnered widespread attention for their impressive advancements in image generation. However, their growing popularity has raised ethical and social concerns related to key non-functional properties of trustworthiness, such as robustness, fairness, security, privacy, factuality, and explainability, similar to those in traditional deep learning (DL) tasks. Conventional approaches for studying trustworthiness in DL tasks often fall short due to the unique characteristics of T2I DMs, e.g., the multi-modal nature. Given the challenge, recent efforts have been made to develop new methods for investigating trustworthiness in T2I DMs via various means, including falsification, enhancement, verification \& validation and assessment. However, there is a notable lack of in-depth analysis concerning those non-functional properties and means. In this survey, we provide a timely and focused review of the literature on trustworthy T2I DMs, covering a concise-structured taxonomy from the perspectives of property, means, benchmarks and applications. Our review begins with an introduction to essential preliminaries of T2I DMs, and then we summarise key definitions/metrics specific to T2I tasks and analyses the means proposed in recent literature based on these definitions/metrics. Additionally, we review benchmarks and domain applications of T2I DMs. Finally, we highlight the gaps in current research, discuss the limitations of existing methods, and propose future research directions to advance the development of trustworthy T2I DMs. Furthermore, we keep up-to-date updates in this field to track the latest developments and maintain our GitHub repository at: https://github.com/wellzline/Trustworthy_T2I_DMs
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
しかし、彼らの人気は、従来のディープラーニング(DL)タスクと同様、堅牢性、公正性、セキュリティ、プライバシ、事実性、説明可能性といった、信頼性の重要な非機能的特性に関連する倫理的・社会的関心を高めている。
従来のDLタスクの信頼性研究手法では,T2I DMの特異な特性,例えばマルチモーダルな性質が原因で,不足することが多い。
この課題を踏まえ、近年のT2I DMの信頼性調査手法の開発に、ファルシフィケーション、エンハンスメント、検証・検証、評価など、様々な手法を用いて取り組んでいる。
しかし、これらの機能的でない性質や手段に関する詳細な分析が欠如している。
本調査では,信頼性の高いT2I DMに関する文献をタイムリーかつ集中的にレビューし,特性,手段,ベンチマーク,アプリケーションの観点から,簡潔な分類を網羅する。
本稿では,T2I DM の基本前提について紹介し,T2I タスクに特有のキー定義/指標を要約し,これらの定義/指標に基づいて近年の文献で提案されている方法を分析する。
さらに、T2I DMのベンチマークとドメイン適用について検討する。
最後に、現在の研究のギャップを強調し、既存の手法の限界について議論し、信頼性の高いT2I DMの開発を進めるための今後の研究方向性を提案する。
さらに、この領域の最新のアップデートを更新して、最新の開発を追跡し、GitHubリポジトリを次のようにメンテナンスしています。
関連論文リスト
- FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文 参考訳(メタデータ) (2025-02-06T07:22:57Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.079690200471454]
Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。
ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。
本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-12T03:15:01Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks [22.651626059348356]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。
1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
論文 参考訳(メタデータ) (2023-06-16T00:43:35Z) - Measuring the Robustness of NLP Models to Domain Shifts [50.89876374569385]
ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。
現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。
我々は、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)を相補的な視点として使うべきであると論じる。
論文 参考訳(メタデータ) (2023-05-31T20:25:08Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。