論文の概要: Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
- arxiv url: http://arxiv.org/abs/2506.05673v2
- Date: Mon, 09 Jun 2025 14:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.161373
- Title: Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery
- Title(参考訳): Peer-Ranked Precision: DataSeedsの注釈付き画像から微調整ビジョンモデルのための基礎的データセットを作成する
- Authors: Sajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz,
- Abstract要約: 我々は、当初、約10,610人の高品質な人間のピアランク写真画像からなるDataSeeds.AIサンプルデータセット(DSD)を紹介した。
DSDは、商用画像データセットの新しい標準となるように設計された基礎的なコンピュータビジョンデータセットである。
我々は、DSDが既知のベンチマークに対する特定のモデルに対して生成した量的改善を文書化し、我々の評価で使用されるコードとトレーニングされたモデルを一般公開する。
- 参考スコア(独自算出の注目度): 0.8374689870024963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of modern Artificial Intelligence (AI) models, particularly diffusion-based models employed in computer vision and image generation tasks, is undergoing a paradigmatic shift in development methodologies. Traditionally dominated by a "Model Centric" approach, in which performance gains were primarily pursued through increasingly complex model architectures and hyperparameter optimization, the field is now recognizing a more nuanced "Data-Centric" approach. This emergent framework foregrounds the quality, structure, and relevance of training data as the principal driver of model performance. To operationalize this paradigm shift, we introduce the DataSeeds.AI sample dataset (the "DSD"), initially comprised of approximately 10,610 high-quality human peer-ranked photography images accompanied by extensive multi-tier annotations. The DSD is a foundational computer vision dataset designed to usher in a new standard for commercial image datasets. Representing a small fraction of DataSeeds.AI's 100 million-plus image catalog, the DSD provides a scalable foundation necessary for robust commercial and multimodal AI development. Through this in-depth exploratory analysis, we document the quantitative improvements generated by the DSD on specific models against known benchmarks and make the code and the trained models used in our evaluation publicly available.
- Abstract(参考訳): 現代の人工知能(AI)モデル、特にコンピュータビジョンや画像生成タスクで使用される拡散ベースのモデルの開発は、開発方法論のパラダイムシフトを受けている。
伝統的に、パフォーマンス向上は主に、ますます複雑なモデルアーキテクチャとハイパーパラメータ最適化によって追求される"モデル中心"アプローチに支配され、この分野はよりニュアンスの高い"データ中心"アプローチを認識している。
この創発的なフレームワークは、モデルパフォーマンスの主要な要因として、トレーニングデータの質、構造、および関連性を前提としています。
このパラダイムシフトを運用するために、まず、多層アノテーションを伴い、約10,610人の高品質な人物のピアランク写真画像からなるDataSeeds.AIサンプルデータセット(DSD)を紹介した。
DSDは、商用画像データセットの新しい標準となるように設計された基礎的なコンピュータビジョンデータセットである。
DataSeeds.AIの1億以上のイメージカタログのごく一部を表現しているDSDは、堅牢な商用およびマルチモーダルAI開発に必要なスケーラブルな基盤を提供する。
この詳細な探索分析を通じて、DSDが既知のベンチマークに対して特定のモデル上で生成した量的改善を文書化し、評価に使用するコードとトレーニングされたモデルを一般公開する。
関連論文リスト
- FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。