Fugu-MT 論文翻訳(概要): GPIC: A Giant Permissive Image Corpus for Visual Generation

論文の概要: GPIC: A Giant Permissive Image Corpus for Visual Generation

arxiv url: http://arxiv.org/abs/2605.30341v1
Date: Thu, 28 May 2026 17:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.75434
Title: GPIC: A Giant Permissive Image Corpus for Visual Generation
Title（参考訳）: GPIC:視覚生成のための巨大許容画像コーパス
Authors: Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei,
Abstract要約: 約28兆画素の巨大許容画像コーパスであるGPICを紹介する。 GPICは、最先端のビジョンフィルタリングモデルによってキャプションされた多様なインターネットイメージで構成されている。すべてのGPIC画像は、研究と商業の両方に許可されている。
参考スコア（独自算出の注目度）: 45.90707695790241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Studying scalable methods for visual generative modeling requires large, accessible, and stable datasets. We introduce GPIC, a Giant Permissive Image Corpus of approximately 28 trillion pixels. GPIC comprises diverse internet images captioned by a state-of-the-art vision-language model, including 100M training, 200K validation, and 1M test examples. Moreover, all GPIC images are permissively licensed for both research and commercial use. GPIC is safety-filtered, deduplicated, and centrally hosted on Hugging Face. We provide a benchmarking protocol for generative modeling on GPIC. Finally, we provide a reference baseline for pixel-space flow matching on GPIC. Our dataset, benchmark, and models are available at https://huggingface.co/datasets/stanford-vision-lab/gpic. Evaluation toolkit and code are available at https://gpic.stanford.edu
Abstract（参考訳）: 視覚生成モデリングのためのスケーラブルな方法を研究するには、大きく、アクセスしやすく、安定したデータセットが必要である。約28兆画素の巨大許容画像コーパスであるGPICを紹介する。 GPICは、1Mのトレーニング、200Kの検証、100Mのテスト例を含む最先端のビジョン言語モデルによってキャプションされた多様なインターネットイメージで構成されている。さらに、すべてのGPIC画像は研究用と商業用の両方に許可されている。 GPICは、Hugging Face上で安全フィルタされ、分離され、中心的にホストされている。 GPIC上の生成モデリングのためのベンチマークプロトコルを提供する。最後に,GPIC上での画素空間フローマッチングのための基準ベースラインを提案する。私たちのデータセット、ベンチマーク、モデルはhttps://huggingface.co/datasets/stanford-vision-lab/gpic.comで公開されています。評価ツールキットとコードはhttps://gpic.stanford.eduで公開されている。

関連論文リスト

Vision2Code: A Multi-Domain Benchmark for Evaluating Image-to-Code Generation [18.596629746844567]
画像・コード生成のための参照不要なベンチマークおよび評価フレームワークであるVision2Codeを紹介する。 Vision2Codeには、チャートやプロット、幾何学、グラフ、科学画像、ドキュメント、三次元空間シーンにまたがる15のソースデータセットから2,169のサンプルが含まれている。コード実行障害を再構築品質から分離するレンダス診断を報告する。
論文参考訳（メタデータ） (2026-05-11T22:50:12Z)
How far can we go with ImageNet for Text-to-Image generation? [0.5437050212139086]
我々は、よく設計されたテキストと画像拡張で拡張されたImageNetのみを用いて、大規模なWebスクラッドコレクションでトレーニングされたモデルの能力を実現することができることを示す。この非常に単純な設定で、GenEvalのSD-XLで+6%、DPGBenchで+5%、パラメータの1/10とトレーニングイメージの1/1000で+6%のスコアを得る。
論文参考訳（メタデータ） (2025-02-28T18:59:42Z)
xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文参考訳（メタデータ） (2024-03-04T10:29:58Z)
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-08-12T16:48:10Z)
BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文参考訳（メタデータ） (2022-01-12T20:28:34Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Image Scene Graph Generation (SGG) Benchmark [58.33119409657256]
画像シーングラフ生成(オブジェクト、関係検出)への関心が高まっている。優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果と直接比較することができない。我々は,マスマルクン・ベンチマークといくつかの人気モデルに基づく,待望のシーングラフ生成ベンチマークを開発した。
論文参考訳（メタデータ） (2021-07-27T05:10:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。