Fugu-MT 論文翻訳(概要): Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey

論文の概要: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey

arxiv url: http://arxiv.org/abs/2409.18214v1
Date: Thu, 26 Sep 2024 18:46:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 15:21:45.172647
Title: Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey
Title（参考訳）: 信頼できるテキストと画像の拡散モデル:タイムリーで焦点を絞った調査
Authors: Yi Zhang, Zhen Chen, Chih-Hong Cheng, Wenjie Ruan, Xiaowei Huang, Dezong Zhao, David Flynn, Siddartha Khastgir, Xingyu Zhao,
Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。彼らの人気が高まったことで、信頼性の重要な非機能的特性に関する倫理的・社会的懸念が高まった。
参考スコア（独自算出の注目度）: 22.930713650452894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-Image (T2I) Diffusion Models (DMs) have garnered widespread attention for their impressive advancements in image generation. However, their growing popularity has raised ethical and social concerns related to key non-functional properties of trustworthiness, such as robustness, fairness, security, privacy, factuality, and explainability, similar to those in traditional deep learning (DL) tasks. Conventional approaches for studying trustworthiness in DL tasks often fall short due to the unique characteristics of T2I DMs, e.g., the multi-modal nature. Given the challenge, recent efforts have been made to develop new methods for investigating trustworthiness in T2I DMs via various means, including falsification, enhancement, verification \& validation and assessment. However, there is a notable lack of in-depth analysis concerning those non-functional properties and means. In this survey, we provide a timely and focused review of the literature on trustworthy T2I DMs, covering a concise-structured taxonomy from the perspectives of property, means, benchmarks and applications. Our review begins with an introduction to essential preliminaries of T2I DMs, and then we summarise key definitions/metrics specific to T2I tasks and analyses the means proposed in recent literature based on these definitions/metrics. Additionally, we review benchmarks and domain applications of T2I DMs. Finally, we highlight the gaps in current research, discuss the limitations of existing methods, and propose future research directions to advance the development of trustworthy T2I DMs. Furthermore, we keep up-to-date updates in this field to track the latest developments and maintain our GitHub repository at: https://github.com/wellzline/Trustworthy_T2I_DMs
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。しかし、彼らの人気は、従来のディープラーニング(DL)タスクと同様、堅牢性、公正性、セキュリティ、プライバシ、事実性、説明可能性といった、信頼性の重要な非機能的特性に関連する倫理的・社会的関心を高めている。従来のDLタスクの信頼性研究手法では,T2I DMの特異な特性,例えばマルチモーダルな性質が原因で,不足することが多い。この課題を踏まえ、近年のT2I DMの信頼性調査手法の開発に、ファルシフィケーション、エンハンスメント、検証・検証、評価など、様々な手法を用いて取り組んでいる。しかし、これらの機能的でない性質や手段に関する詳細な分析が欠如している。本調査では,信頼性の高いT2I DMに関する文献をタイムリーかつ集中的にレビューし,特性,手段,ベンチマーク,アプリケーションの観点から,簡潔な分類を網羅する。本稿では,T2I DM の基本前提について紹介し,T2I タスクに特有のキー定義/指標を要約し,これらの定義/指標に基づいて近年の文献で提案されている方法を分析する。さらに、T2I DMのベンチマークとドメイン適用について検討する。最後に、現在の研究のギャップを強調し、既存の手法の限界について議論し、信頼性の高いT2I DMの開発を進めるための今後の研究方向性を提案する。さらに、この領域の最新のアップデートを更新して、最新の開発を追跡し、GitHubリポジトリを次のようにメンテナンスしています。

関連論文リスト

PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。 PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文参考訳（メタデータ） (2025-11-24T17:09:43Z)
AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文参考訳（メタデータ） (2025-09-19T16:41:39Z)
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文参考訳（メタデータ） (2025-05-27T15:42:46Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (2025-04-26T07:48:52Z)
FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文参考訳（メタデータ） (2025-02-06T07:22:57Z)
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文参考訳（メタデータ） (2025-01-22T03:29:43Z)
Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。本調査では,T2Iに関する最近の研究440件について概説する。
論文参考訳（メタデータ） (2024-11-25T07:40:32Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文参考訳（メタデータ） (2024-10-10T11:56:09Z)
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.079690200471454]
Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文参考訳（メタデータ） (2024-07-12T03:15:01Z)
FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models [7.30796695035169]
FAIntbenchは、テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスの総合的かつ正確なベンチマークである。我々はFAIntbenchを7種類の大規模T2Iモデルの評価に適用し,人間による評価を行った。その結果, FAIntbenchが種々のバイアスの同定に有効であった。
論文参考訳（メタデータ） (2024-05-28T04:18:00Z)
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文参考訳（メタデータ） (2024-04-05T17:57:16Z)
ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文参考訳（メタデータ） (2024-02-23T16:48:56Z)
Memory in Plain Sight: Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models [65.08133391009838]
拡散モデル(DM)の生成プロセスは、最近、多くのAI生成ベンチマークに最先端を設定した。エネルギーに基づく連想記憶(AM)の分野からのメモリ検索の数学的言語を用いたDM記述のための新しい視点を導入する。我々は,AMから期待される経験的行動を示すDMを記録できることの証拠として,DMをエネルギーベースメモリの一種として理解することによって明らかにされる研究の機会について論じる。
論文参考訳（メタデータ） (2023-09-28T17:57:09Z)
Evaluating the Robustness of Text-to-image Diffusion Models against Real-world Attacks [22.651626059348356]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。 1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
論文参考訳（メタデータ） (2023-06-16T00:43:35Z)
Measuring the Robustness of NLP Models to Domain Shifts [50.89876374569385]
ドメインロバストネス(DR)に関する既存の研究は、異なる設定、限られたタスクの多様性、コンテキスト内学習のような最近の能力に関する研究が不足している。現在の研究は、チャレンジセットに焦点を当て、ソースドロップ(SD: Source Drop)のみに依存している。我々は、ドメイン内パフォーマンスの劣化を測定するターゲットドロップ(TD)を相補的な視点として使うべきであると論じる。
論文参考訳（メタデータ） (2023-05-31T20:25:08Z)
What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。 DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文参考訳（メタデータ） (2022-05-23T17:58:39Z)
Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。本研究では,長尾分布下における敵対的脆弱性と防御について検討する。我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文参考訳（メタデータ） (2021-04-06T17:53:08Z)
SupMMD: A Sentence Importance Model for Extractive Summarization using Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。 DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文参考訳（メタデータ） (2020-10-06T09:26:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。