論文の概要: REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
- arxiv url: http://arxiv.org/abs/2502.03629v1
- Date: Wed, 05 Feb 2025 21:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:41.972518
- Title: REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
- Title(参考訳): REALEDIT:Redditは画像変換のための大規模な経験的データセットとして編集する
- Authors: Peter Sushko, Ayana Bharadwaj, Zhi Yang Lim, Vasily Ilin, Ben Caffee, Dongping Chen, Mohammadreza Salehi, Cheng-Yu Hsieh, Ranjay Krishna,
- Abstract要約: 既存の画像編集モデルは、現実の要求を満たすのに苦労している。
本稿では,Redditからのユーザ要求と人為的な編集機能を備えた大規模な画像編集データセットREALEDITを紹介する。
以上の結果から,既存のモデルではこれらのタスクが不足しており,現実的なトレーニングデータの必要性が強調されている。
- 参考スコア(独自算出の注目度): 16.214602072603125
- License:
- Abstract: Existing image editing models struggle to meet real-world demands. Despite excelling in academic benchmarks, they have yet to be widely adopted for real user needs. Datasets that power these models use artificial edits, lacking the scale and ecological validity necessary to address the true diversity of user requests. We introduce REALEDIT, a large-scale image editing dataset with authentic user requests and human-made edits sourced from Reddit. REALEDIT includes a test set of 9300 examples to evaluate models on real user requests. Our results show that existing models fall short on these tasks, highlighting the need for realistic training data. To address this, we introduce 48K training examples and train our REALEDIT model, achieving substantial gains - outperforming competitors by up to 165 Elo points in human judgment and 92 percent relative improvement on the automated VIEScore metric. We deploy our model on Reddit, testing it on new requests, and receive positive feedback. Beyond image editing, we explore REALEDIT's potential in detecting edited images by partnering with a deepfake detection non-profit. Finetuning their model on REALEDIT data improves its F1-score by 14 percentage points, underscoring the dataset's value for broad applications.
- Abstract(参考訳): 既存の画像編集モデルは、現実の要求を満たすのに苦労している。
学術的なベンチマークでは優れていますが、実際のユーザニーズに対してはまだ広く採用されていません。
これらのモデルを支えるデータセットは、ユーザー要求の真の多様性に対応するのに必要なスケールと生態的妥当性を欠いている、人工的な編集を使用する。
本稿では,Redditからのユーザ要求と人為的な編集機能を備えた大規模な画像編集データセットREALEDITを紹介する。
REALEDITには、実際のユーザリクエストのモデルを評価するために、9300のサンプルのテストセットが含まれている。
以上の結果から,既存のモデルではこれらのタスクが不足しており,現実的なトレーニングデータの必要性が強調されている。
この問題を解決するために,48Kのトレーニングサンプルを導入し,REALEDITモデルをトレーニングした。
私たちはモデルをRedditにデプロイし、新しいリクエストでテストし、肯定的なフィードバックを受けます。
画像編集以外にも, ディープフェイク検出非営利団体と連携して編集画像を検出するREALEDITの可能性を探る。
REALEDITデータでモデルを微調整すると、F1スコアが14ポイント向上し、幅広いアプリケーションに対するデータセットの価値が強調される。
関連論文リスト
- Appeal prediction for AI up-scaled Images [45.61706071739717]
136のベースイメージと5つの異なるアップスケーリング手法を用いて構築したデータセットについて述べる。
その結果,Real-ESRGANとBSRGANが最適であることが示唆された。
これに加えて,最先端画像の魅力と品質モデルの評価を行ったが,どのモデルも高い予測性能を示しなかった。
論文 参考訳(メタデータ) (2025-02-19T13:45:24Z) - IDEA-Bench: How Far are Generative Models from Professional Designing? [34.00716542613326]
実世界の100のタスクを含むベンチマークであるIDEA-Benchを紹介する。
これには、レンダリング、ビジュアルエフェクト、ストーリーボード、絵本、フォント、スタイルベース、アイデンティティ保存生成が含まれる。
最高のパフォーマンスモデルでさえ、IDEA-Benchで22.48しか達成せず、最高の汎用モデルは6.81しか達成していない。
論文 参考訳(メタデータ) (2024-12-16T13:39:32Z) - Analysis of Classifier Training on Synthetic Data for Cross-Domain Datasets [4.696575161583618]
本研究は、高度な運転支援システムと自律運転のためのカメラベースの交通標識認識アプリケーションに焦点を当てた。
合成データセットの増補パイプラインは、構造化影やガウスの特異なハイライトのような新しい増補プロセスを含む。
実験の結果、クロスドメインテストデータセットに適用した場合、ほとんどの場合、合成画像ベースアプローチは実際の画像ベーストレーニングよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T07:11:41Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。