論文の概要: Beyond Quantity: Distribution-Aware Labeling for Visual Grounding
- arxiv url: http://arxiv.org/abs/2505.24372v2
- Date: Thu, 25 Sep 2025 09:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 16:29:06.35577
- Title: Beyond Quantity: Distribution-Aware Labeling for Visual Grounding
- Title(参考訳): Beyond Quantity: ビジュアルグラウンドのための分散アウェアラベリング
- Authors: Yichi Zhang, Gongwei Chen, Jun Zhu, Jia Wan, Liqiang Nie,
- Abstract要約: 視覚的な接地には、大きく多様な領域テキストペアが必要である。
既存の擬似ラベルパイプラインは、しばしばバイアス分布に適合する。
視覚的グラウンドティングのための分布認識型ラベリングフレームワークであるDALを提案する。
- 参考スコア(独自算出の注目度): 72.43984105242177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding requires large and diverse region-text pairs. However, manual annotation is costly and fixed vocabularies restrict scalability and generalization. Existing pseudo-labeling pipelines often overfit to biased distributions and generate noisy or redundant samples. Through our systematic analysis of data quality and distributional coverage, we find that performance gains come less from raw data volume and more from effective distribution expansion. Motivated by this insight, we propose DAL, a distribution-aware labeling framework for visual grounding. The proposed method first employs a dual-driven annotation module, where a closed-set path provides reliable pseudo labels and an open-set path enriches vocabulary and introduces novel concepts; meanwhile, it further performs explicit out-of-distribution (OOD) expression expansion to broaden semantic coverage. We then propose a consistency- and distribution-aware filtering module to discard noisy or redundant region-text pairs and rebalance underrepresented linguistic and visual content, thereby improving both data quality and training efficiency. Extensive experiments on three benchmarks demonstrate that our method consistently outperforms strong baselines and achieves state-of-the-art results, underscoring the critical role of distribution-aware labeling in building scalable and robust visual grounding datasets.
- Abstract(参考訳): 視覚的な接地には、大きく多様な領域テキストペアが必要である。
しかし、手動アノテーションは高価であり、固定語彙はスケーラビリティと一般化を制限している。
既存の擬似ラベルパイプラインは、しばしばバイアス分布に過度に適合し、ノイズや冗長なサンプルを生成する。
データ品質と分散カバレッジの体系的分析により、生データ量による性能向上はより少なく、より効果的な分散拡大によってもたらされることが判明した。
この知見に触発されて,視覚的グラウンドティングのための分布認識型ラベリングフレームワークであるDALを提案する。
提案手法は、まず、二元的アノテーションモジュールを用いており、そこでは、クローズドセットパスが信頼できる擬似ラベルを提供し、オープンセットパスが語彙を豊かにし、新しい概念を導入し、さらに意味的カバレッジを広げるために、明示的なアウト・オブ・ディストリビューション(OOD)表現拡張を実行する。
そこで我々は,雑音や冗長な領域文のペアを排除し,表現不足の言語的・視覚的コンテンツを再バランスさせ,データ品質と学習効率を両立させる,一貫性と分散性を考慮したフィルタリングモジュールを提案する。
3つのベンチマークの大規模な実験により、我々の手法は強いベースラインを一貫して上回り、最先端の結果を達成することが示され、スケーラブルで堅牢なビジュアルグラウンドディングデータセットを構築する上での分散アウェアラベリングの重要性が強調された。
関連論文リスト
- Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。
提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。
SFDAのためのPACSデータセットの評価は、当社の増補戦略が既存の手法を一貫して上回っていることを示している。
Market-1501とDukeMTMC-reIDデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-04-17T16:42:33Z) - Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。