論文の概要: A Systematic Review of Open Datasets Used in Text-to-Image (T2I) Gen AI Model Safety
- arxiv url: http://arxiv.org/abs/2503.00020v1
- Date: Sun, 23 Feb 2025 00:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:50:41.805526
- Title: A Systematic Review of Open Datasets Used in Text-to-Image (T2I) Gen AI Model Safety
- Title(参考訳): テキスト・ツー・イメージ(T2I)Gen AIモデル安全性におけるオープンデータセットの体系的レビュー
- Authors: Rakeen Rouf, Trupti Bavalatti, Osama Ahmed, Dhaval Potdar, Faraz Jawed,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成AIの安全性を目的とした新しい研究は、しばしばトレーニングと評価のために公開されているデータセットに依存している。
本稿では,T2I研究で使用される主要なデータセットについて,その収集方法,構成,意味的および統語的多様性,およびデータセットにおける害タイプの品質,カバレッジ,分布について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Novel research aimed at text-to-image (T2I) generative AI safety often relies on publicly available datasets for training and evaluation, making the quality and composition of these datasets crucial. This paper presents a comprehensive review of the key datasets used in the T2I research, detailing their collection methods, compositions, semantic and syntactic diversity of prompts and the quality, coverage, and distribution of harm types in the datasets. By highlighting the strengths and limitations of the datasets, this study enables researchers to find the most relevant datasets for a use case, critically assess the downstream impacts of their work given the dataset distribution, particularly regarding model safety and ethical considerations, and also identify the gaps in dataset coverage and quality that future research may address.
- Abstract(参考訳): T2I(text-to-image)生成AIの安全性を目的とした新しい研究は、しばしばトレーニングと評価のために公開されているデータセットに依存しており、これらのデータセットの品質と構成が不可欠である。
本稿では,T2I研究で使用される主要なデータセットについて概説し,その収集方法,構成,意味的および統語的多様性,およびデータセットにおける害タイプの品質,カバレッジ,分布について概説する。
データセットの長所と短所を強調することにより、研究者はユースケースにおいて最も関連性の高いデータセットを見つけ、データセットの分布、特にモデル安全性と倫理的考察に基づいて、データセットの下流への影響を批判的に評価し、将来の研究が直面するであろうデータセットのカバレッジと品質のギャップを特定することができる。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。