論文の概要: D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding
- arxiv url: http://arxiv.org/abs/2505.24372v1
- Date: Fri, 30 May 2025 09:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.867333
- Title: D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding
- Title(参考訳): D2AF:ビジュアルグラウンドのためのデュアル駆動アノテーションとフィルタリングフレームワーク
- Authors: Yichi Zhang, Gongwei Chen, Jun Zhu, Jia Wan,
- Abstract要約: D2AFは、入力画像のみを使用して視覚的な接地を行うための堅牢なアノテーションフレームワークである。
二重駆動型アノテーション戦略を実装することにより、詳細な領域テキストペアを効果的に生成する。
以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 36.321156992727055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding is a task that aims to localize a target region in an image based on a free-form natural language description. With the rise of Transformer architectures, there is an increasing need for larger datasets to boost performance. However, the high cost of manual annotation poses a challenge, hindering the scale of data and the ability of large models to enhance their effectiveness. Previous pseudo label generation methods heavily rely on human-labeled captions of the original dataset, limiting scalability and diversity. To address this, we propose D2AF, a robust annotation framework for visual grounding using only input images. This approach overcomes dataset size limitations and enriches both the quantity and diversity of referring expressions. Our approach leverages multimodal large models and object detection models. By implementing dual-driven annotation strategies, we effectively generate detailed region-text pairs using both closed-set and open-set approaches. We further conduct an in-depth analysis of data quantity and data distribution. Our findings demonstrate that increasing data volume enhances model performance. However, the degree of improvement depends on how well the pseudo labels broaden the original data distribution. Based on these insights, we propose a consistency and distribution aware filtering method to further improve data quality by effectively removing erroneous and redundant data. This approach effectively eliminates noisy data, leading to improved performance. Experiments on three visual grounding tasks demonstrate that our method significantly improves the performance of existing models and achieves state-of-the-art results.
- Abstract(参考訳): ビジュアルグラウンド(Visual Grounding)は、画像中の対象領域を、自由形式の自然言語記述に基づいてローカライズすることを目的としたタスクである。
Transformerアーキテクチャの台頭により、パフォーマンスを向上させるためにより大きなデータセットの必要性が高まっている。
しかし、手動アノテーションの高コストは、データのスケールと大きなモデルの有効性を高める能力の妨げとなる。
従来の擬似ラベル生成手法は、拡張性と多様性を制限するために、オリジナルのデータセットの人間ラベル付きキャプションに大きく依存していた。
そこで本稿では,入力画像のみを用いた視覚的接地のためのロバストなアノテーションフレームワークであるD2AFを提案する。
このアプローチはデータセットのサイズ制限を克服し、参照表現の量と多様性の両方を豊かにする。
提案手法は,マルチモーダル大モデルとオブジェクト検出モデルを利用する。
二重駆動型アノテーション戦略を実装することにより、クローズドセットとオープンセットの両方のアプローチを用いて、詳細な領域テキストペアを効果的に生成する。
さらに,データ量とデータ分布の詳細な分析を行う。
以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
しかし、改善の度合いは、擬似ラベルがいかに元のデータ分布を拡大するかに依存する。
これらの知見に基づいて,不正データや冗長データを効果的に除去することにより,データ品質をさらに向上するための一貫性と分布を考慮したフィルタリング手法を提案する。
このアプローチは、ノイズの多いデータを効果的に排除し、パフォーマンスが向上する。
3つの視覚的接地課題に対する実験により,本手法は既存モデルの性能を大幅に向上し,最先端の結果が得られた。
関連論文リスト
- Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。
提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。
SFDAのためのPACSデータセットの評価は、当社の増補戦略が既存の手法を一貫して上回っていることを示している。
Market-1501とDukeMTMC-reIDデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-04-17T16:42:33Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。