論文の概要: Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration
- arxiv url: http://arxiv.org/abs/2305.12799v1
- Date: Mon, 22 May 2023 07:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:41:49.960480
- Title: Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration
- Title(参考訳): LLMs-AIGCsコラボレーションによる視覚適応のための対話型データ合成
- Authors: Qifan Yu, Juncheng Li, Wentao Ye, Siliang Tang, Yueting Zhuang
- Abstract要約: 本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
- 参考スコア(独自算出の注目度): 48.54002313329872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generation models have shown promising results in
generating high-fidelity photo-realistic images. In parallel, the problem of
data scarcity has brought a growing interest in employing AIGC technology for
high-quality data expansion. However, this paradigm requires well-designed
prompt engineering that cost-less data expansion and labeling remain
under-explored. Inspired by LLM's powerful capability in task guidance, we
propose a new paradigm of annotated data expansion named as ChatGenImage. The
core idea behind it is to leverage the complementary strengths of diverse
models to establish a highly effective and user-friendly pipeline for
interactive data augmentation. In this work, we extensively study how LLMs
communicate with AIGC model to achieve more controllable image generation and
make the first attempt to collaborate them for automatic data augmentation for
a variety of downstream tasks. Finally, we present fascinating results obtained
from our ChatGenImage framework and demonstrate the powerful potential of our
synthetic data for systematic vision adaptation. Our codes are available at
https://github.com/Yuqifan1117/Labal-Anything-Pipeline.
- Abstract(参考訳): 近年のテキスト・画像生成モデルでは,高忠実度フォトリアリスティック画像の生成に有望な結果が示されている。
並行して、データ不足の問題により、高品質なデータ拡張にAIGC技術を採用することへの関心が高まっている。
しかし、このパラダイムは、コストレスなデータ拡張とラベル付けが未開発のままである、よく設計されたプロンプトエンジニアリングを必要とする。
タスクガイダンスにおけるLLMの強力な能力に触発されて,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
本研究では, llmsがaigcモデルとどのように通信し, より制御可能な画像生成を実現し, ダウンストリームタスクの自動データ拡張のために, それらと協調するための最初の試みを行った。
最後に,我々のchatgenimageフレームワークから得られた興味深い結果を示し,システム的視覚適応のための合成データの強力な可能性を示す。
私たちのコードはhttps://github.com/yuqifan1117/labal-anything-pipelineで利用可能です。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.55942000935765]
視覚大言語モデル(VLLM)のための新しいデータ合成パイプラインであるSynthVLMを紹介する。
画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択する。
我々は、様々な視覚的質問応答タスクにおける最先端(SoTA)のパフォーマンスを達成し、高いアライメント品質を維持し、高度な言語能力を維持する。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。