論文の概要: DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images
- arxiv url: http://arxiv.org/abs/2507.08648v1
- Date: Fri, 11 Jul 2025 14:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.392445
- Title: DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images
- Title(参考訳): DatasetAgent: 実世界の画像からデータセットを自動構築する新しいマルチエージェントシステム
- Authors: Haoran Sun, Haoyu Bian, Shaoning Zeng, Yunbo Rao, Xu Xu, Lin Mei, Jianping Gou,
- Abstract要約: 本稿では,マルチエージェント協調システムによる実世界の画像からのデータセットの自動構築手法を提案する。
MLLM(Multi-modal Large Language Models)を備えた4種類のエージェントをコーディネートすることで,高品質な画像データセットを構築することができる。
特に、既存のデータセットを拡張し、新しいデータセットをスクラッチから作成するなど、2種類の実験が実施されている。
- 参考スコア(独自算出の注目度): 21.22466658711056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common knowledge indicates that the process of constructing image datasets usually depends on the time-intensive and inefficient method of manual collection and annotation. Large models offer a solution via data generation. Nonetheless, real-world data are obviously more valuable comparing to artificially intelligence generated data, particularly in constructing image datasets. For this reason, we propose a novel method for auto-constructing datasets from real-world images by a multiagent collaborative system, named as DatasetAgent. By coordinating four different agents equipped with Multi-modal Large Language Models (MLLMs), as well as a tool package for image optimization, DatasetAgent is able to construct high-quality image datasets according to user-specified requirements. In particular, two types of experiments are conducted, including expanding existing datasets and creating new ones from scratch, on a variety of open-source datasets. In both cases, multiple image datasets constructed by DatasetAgent are used to train various vision models for image classification, object detection, and image segmentation.
- Abstract(参考訳): 共通知識は、画像データセットを構築するプロセスは、通常、手動の収集とアノテーションの時間集約的かつ非効率な方法に依存していることを示している。
大規模モデルは、データ生成によるソリューションを提供する。
それでも、実世界のデータは、特に画像データセットの構築において、人工知能が生成したデータと比較して、明らかに価値がある。
そこで本稿では,DatasetAgentという名前のマルチエージェント協調システムを用いて,実世界の画像からデータセットを自動的に構築する手法を提案する。
MLLM(Multi-modal Large Language Models)を備えた4つのエージェントと、画像最適化のためのツールパッケージをコーディネートすることにより、DatasetAgentは、ユーザが指定した要求に応じて高品質の画像データセットを構築することができる。
特に、既存のデータセットを拡張し、スクラッチから新しいデータセットを作成するなど、さまざまなオープンソースデータセット上で2種類の実験が実施されている。
どちらの場合も、DatasetAgentによって構築された複数の画像データセットを使用して、画像分類、オブジェクト検出、画像分割のための様々なビジョンモデルを訓練する。
関連論文リスト
- Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Community Forensics: Using Thousands of Generators to Train Fake Image Detectors [15.166026536032142]
AI生成画像を検出する上で重要な課題の1つは、これまで目に見えない生成モデルによって作成された画像を見つけることである。
従来よりも大きく,多様である新しいデータセットを提案する。
得られたデータセットには、4803の異なるモデルからサンプリングされた2.7Mイメージが含まれている。
論文 参考訳(メタデータ) (2024-11-06T18:59:41Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - AEye: A Visualization Tool for Image Datasets [18.95453617434051]
AEyeは、画像データセットに適した意味的に意味のある視覚化ツールである。
AEyeはイメージを意味的に意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。
AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。
論文 参考訳(メタデータ) (2024-08-07T20:19:20Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。
本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。
提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文 参考訳(メタデータ) (2024-03-22T12:08:16Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。