論文の概要: Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms
- arxiv url: http://arxiv.org/abs/2410.23144v1
- Date: Wed, 30 Oct 2024 15:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:00.470276
- Title: Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms
- Title(参考訳): パブリックドメイン12M: 新たなガバナンスメカニズムを備えた高美的画像テキストデータセット
- Authors: Jordan Meyer, Nick Padgett, Cullen Miller, Laura Exline,
- Abstract要約: 提案するパブリックドメイン12M(PD12M)は,1240万の高品質なパブリックドメインと,CC0ライセンスの画像に合成キャプションを付加したデータセットである。
PD12Mは、これまでで最大のパブリックドメインイメージテキストデータセットであり、著作権の懸念を最小限に抑えながら基礎モデルをトレーニングするのに十分なサイズである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present Public Domain 12M (PD12M), a dataset of 12.4 million high-quality public domain and CC0-licensed images with synthetic captions, designed for training text-to-image models. PD12M is the largest public domain image-text dataset to date, with sufficient size to train foundation models while minimizing copyright concerns. Through the Source.Plus platform, we also introduce novel, community-driven dataset governance mechanisms that reduce harm and support reproducibility over time.
- Abstract(参考訳): 本稿では,高品質なパブリックドメイン124万のデータセットであるPublic Domain 12M(PD12M)と,テキスト・ツー・イメージモデルのトレーニング用に設計された合成キャプションを用いたCC0ライセンス画像を提案する。
PD12Mは、これまでで最大のパブリックドメインイメージテキストデータセットであり、著作権の懸念を最小限に抑えながら基礎モデルをトレーニングするのに十分なサイズである。
Source.Plusプラットフォームを通じて、害を低減し、時間の経過とともに再現性をサポートする、新しいコミュニティ主導のデータセットガバナンスメカニズムも導入する。
関連論文リスト
- Pixtral 12B [61.12291038082914]
12ビリオンパラメータのマルチモーダル言語モデルであるPixtral-12Bを導入する。
Pixtral-12Bは、自然画像と文書の両方を理解するために訓練されている。
多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対する最先端のテキストモデルでもある。
論文 参考訳(メタデータ) (2024-10-09T17:16:22Z) - RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。
提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文 参考訳(メタデータ) (2024-08-29T15:39:33Z) - Robust Disaster Assessment from Aerial Imagery Using Text-to-Image Synthetic Data [66.49494950674402]
航空画像からの損傷評価のタスクのための大規模合成監視を作成する際に,新たなテキスト・画像生成モデルを活用する。
低リソース領域から何千ものポストディスアスター画像を生成するために、効率的でスケーラブルなパイプラインを構築しています。
我々は,xBDおよびSKAI画像のクロスジオグラフィー領域転送設定におけるフレームワークの強度を,単一ソースとマルチソースの両方で検証する。
論文 参考訳(メタデータ) (2024-05-22T16:07:05Z) - CosmicMan: A Text-to-Image Foundation Model for Humans [30.155677646188572]
我々は,高忠実度画像を生成するためのテキスト・ツー・イメージ基盤モデルであるCosmicManを提案する。
CosmicManは、微妙な外観、合理的な構造、詳細な詳細な詳細な記述と正確なテキストイメージアライメントを備えた写真リアルな人間の画像を生成することができる。
論文 参考訳(メタデータ) (2024-04-01T17:59:05Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - One-shot Unsupervised Domain Adaptation with Personalized Diffusion
Models [15.590759602379517]
ラベル付きソースドメインからターゲットドメインへのセグメンテーションモデルの適用は、ドメイン適応において最も難しい問題の1つである。
テキストと画像の拡散モデルを用いて、写真リアル画像を用いた合成ターゲットデータセットを生成する。
実験の結果,本手法は最先端OSUDA法を最大7.1%超えることがわかった。
論文 参考訳(メタデータ) (2023-03-31T14:16:38Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on
a Massive Scale [64.11709427403008]
テキストマッチングモデルのゼロショット転送能力を大規模に検討し,140個のソースドメイン上での自己教師型トレーニングを行った。
すべての140モデルが驚くほどうまく転送され、ほとんどのモデルが一般的なIRベースラインより大幅に優れています。
論文 参考訳(メタデータ) (2020-10-02T13:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。