論文の概要: On the De-duplication of LAION-2B
- arxiv url: http://arxiv.org/abs/2303.12733v1
- Date: Fri, 17 Mar 2023 17:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:59:11.469708
- Title: On the De-duplication of LAION-2B
- Title(参考訳): LAION-2Bの非重複性について
- Authors: Ryan Webster and Julien Rabin and Loic Simon and Frederic Jurie
- Abstract要約: 本稿では,効率的な重複検出を実現するアルゴリズムチェーンを提案する。
我々のアプローチでは、LAION-2Bの画像のうち約7億枚、約30%が重複している可能性が示されている。
- 参考スコア(独自算出の注目度): 4.626261940793027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models, such as DALL-E, Midjourney, and Stable Diffusion, have
societal implications that extend beyond the field of computer science. These
models require large image databases like LAION-2B, which contain two billion
images. At this scale, manual inspection is difficult and automated analysis is
challenging. In addition, recent studies show that duplicated images pose
copyright problems for models trained on LAION2B, which hinders its usability.
This paper proposes an algorithmic chain that runs with modest compute, that
compresses CLIP features to enable efficient duplicate detection, even for vast
image volumes. Our approach demonstrates that roughly 700 million images, or
about 30\%, of LAION-2B's images are likely duplicated. Our method also
provides the histograms of duplication on this dataset, which we use to reveal
more examples of verbatim copies by Stable Diffusion and further justify the
approach. The current version of the de-duplicated set will be distributed
online.
- Abstract(参考訳): DALL-E、Midjourney、Stable Diffusionなどの生成モデルは、コンピュータ科学の分野を超えて、社会的な意味を持つ。
これらのモデルは、20億の画像を含むLAION-2Bのような大規模な画像データベースを必要とする。
この規模では、手動検査は困難であり、自動分析は困難である。
さらに、最近の研究では、laion2bでトレーニングされたモデルに複製された画像が著作権の問題を引き起こすことが示されている。
本稿では,CLIP特徴を圧縮し,膨大な画像量に対して効率的な重複検出を可能にするアルゴリズムチェーンを提案する。
我々のアプローチでは、LAION-2Bの画像の約7億の画像(約30%)が複製される可能性が示されている。
また,本手法は,本データセットの複製のヒストグラムも提供し,安定拡散による冗長コピーのさらなる例を明らかにし,さらにアプローチを正当化する。
分離されたセットの現在のバージョンはオンラインで配布される。
関連論文リスト
- Image Copy Detection for Diffusion Models [26.3844038970258]
Diffusion-Replication (D-Rep)は40,000のイメージ-レプリカのデータセットである。
D-Repは最先端拡散モデル(Stable Diffusion V1.5)を使用して40,000の画像-レプリカペアを生成する。
本手法は,各画像複製ペアの複製レベルを,教師信号として確率密度関数(PDF)に変換する。
論文 参考訳(メタデータ) (2024-09-30T05:14:07Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Towards Effective Image Forensics via A Novel Computationally Efficient
Framework and A New Image Splice Dataset [19.30075248247771]
この写本はスプライス検出に2倍の貢献をしている。
2つのバリエーションには、コードから生成されたスプリシングされたサンプルと、手作業による編集が含まれている。
最小計算コストで正確なスプライス検出を行うために,新しいスポース圧縮軽量スプライス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T06:58:29Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Compact Binary Fingerprint for Image Copy Re-Ranking [0.0]
画像コピー検出はコンピュータビジョンと信号処理において困難で魅力的なトピックである。
SIFTなどのローカルキーポイントディスクリプタを使用して画像を表現する。
特徴量を定量化し、精度の低下を犠牲にして、大規模データベースに対して探索・マッチングを可能にする。
論文 参考訳(メタデータ) (2021-09-16T08:44:56Z) - Compatibility-aware Heterogeneous Visual Search [93.90831195353333]
既存のシステムは、同じ埋め込みモデルを使用して、クエリとギャラリーイメージの表現(埋め込み)を計算します。
1つは埋め込みを計算する各モデルのパラメータを変更し、もう1つは埋め込みを計算するアーキテクチャを変更して実行します。
最大埋め込みモデル(パラゴン)を用いた通常の(均一な)ビジュアルサーチと比較して,CMP-NASは80倍,23倍のコスト削減を実現している。
論文 参考訳(メタデータ) (2021-05-13T02:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。