論文の概要: Towards Continual Expansion of Data Coverage: Automatic Text-guided Edge-case Synthesis
- arxiv url: http://arxiv.org/abs/2509.26158v1
- Date: Tue, 30 Sep 2025 12:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.531869
- Title: Towards Continual Expansion of Data Coverage: Automatic Text-guided Edge-case Synthesis
- Title(参考訳): データカバレッジの継続的な拡大に向けて:自動テキスト誘導エッジケース合成
- Authors: Kyeongryeol Go,
- Abstract要約: テキスト誘導エッジケース合成のための自動パイプラインを提案する。
提案手法では、画像キャプションの言い換えに、好みの学習によって微調整されたLarge Language Modelを用いる。
この作業は、データキュレーションを手作業から自動化されたターゲット合成に移行する、スケーラブルなフレームワークを確立する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The performance of deep neural networks is strongly influenced by the quality of their training data. However, mitigating dataset bias by manually curating challenging edge cases remains a major bottleneck. To address this, we propose an automated pipeline for text-guided edge-case synthesis. Our approach employs a Large Language Model, fine-tuned via preference learning, to rephrase image captions into diverse textual prompts that steer a Text-to-Image model toward generating difficult visual scenarios. Evaluated on the FishEye8K object detection benchmark, our method achieves superior robustness, surpassing both naive augmentation and manually engineered prompts. This work establishes a scalable framework that shifts data curation from manual effort to automated, targeted synthesis, offering a promising direction for developing more reliable and continuously improving AI systems. Code is available at https://github.com/gokyeongryeol/ATES.
- Abstract(参考訳): ディープニューラルネットワークの性能は、トレーニングデータの品質に強く影響されている。
しかし、挑戦的なエッジケースを手動でキュレートすることでデータセットバイアスを軽減することは、依然として大きなボトルネックである。
そこで本研究では,テキスト誘導エッジケース合成のための自動パイプラインを提案する。
提案手法では,画像キャプションを多種多様なテキストプロンプトに書き起こし,テキスト・ツー・イメージ・モデルから難解な視覚シナリオを生成するための大規模言語モデルを用いている。
FishEye8Kオブジェクト検出ベンチマークで評価したところ,本手法は単純拡張と手作業によるプロンプトを上回り,優れた堅牢性を実現する。
この作業は、データキュレーションを手作業から自動化されたターゲット合成に移行するスケーラブルなフレームワークを確立し、より信頼性が高く継続的なAIシステム改善のための有望な方向を提供する。
コードはhttps://github.com/gokyeongryeol/ATES.comで入手できる。
関連論文リスト
- Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。
バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T09:37:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。