論文の概要: Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding
- arxiv url: http://arxiv.org/abs/2412.00684v2
- Date: Sun, 20 Apr 2025 10:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 21:38:34.56368
- Title: Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding
- Title(参考訳): ボックスの外のペイント:ビジュアルグラウンドのためのトレーニングデータの合成と選択
- Authors: Zilin Du, Haoxin Li, Jianfei Yu, Boyang Li,
- Abstract要約: データ不足に対処するための新しいフレームワークPOBF(Paint Outside the Box and Filter)を提案する。
POBFは、ラベルのミスアライメント問題に対処して、ボックスの外側にペンキを塗ることで画像を合成する。
POBFはパフォーマンスを継続的に改善し、実際のデータのみの手法よりも平均5.83%向上した。
- 参考スコア(独自算出の注目度): 19.998612093646422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding aims to localize the image regions based on a textual query. Given the difficulty of large-scale data curation, we investigate how to effectively learn visual grounding under data-scarce settings in this paper. To address the data scarcity, we propose a novel framework, POBF (Paint Outside the Box and Filter). POBF synthesizes images by inpainting outside the box, tackling a label misalignment issue encountered in previous works. Furthermore, POBF leverages an innovative filtering scheme to select the most effective training data. This scheme combines a hardness score and an overfitting score, balanced by a penalty term. Extensive experiments across four benchmark datasets demonstrate that POBF consistently improves performance, achieving an average gain of 5.83\% over the real-data-only method and outperforming leading baselines by 2.29\%-3.85\% in accuracy. Additionally, we validate the robustness and generalizability of POBF across various generative models, training data sizes, and model architectures.
- Abstract(参考訳): Visual Groundingは、画像領域をテキストクエリに基づいてローカライズすることを目的としている。
本稿では,大規模データキュレーションの難しさを踏まえ,データスカース設定下で視覚的接地を効果的に学習する方法を検討する。
データ不足に対処するため,新しいフレームワークPOBF(Paint Outside the Box and Filter)を提案する。
POBFは、以前の作品で遭遇したラベルのミスアライメント問題に対処して、ボックスの外側にペンキを塗ることで画像を合成する。
さらに、POBFは革新的なフィルタリング手法を利用して、最も効果的なトレーニングデータを選択する。
このスキームは、ペナルティ項によってバランスが取れた硬度スコアと過度に適合するスコアを組み合わせたものである。
4つのベンチマークデータセットにわたる大規模な実験により、POBFはパフォーマンスを継続的に改善し、実際のデータのみの手法よりも平均5.83\%向上し、リードベースラインの精度を2.29\%-3.85\%上回った。
さらに、様々な生成モデル、トレーニングデータサイズ、モデルアーキテクチャにおけるPOBFの堅牢性と一般化性を検証する。
関連論文リスト
- DEPTHOR: Depth Enhancement from a Practical Light-Weight dToF Sensor and RGB Image [8.588871458005114]
本稿では,コンピュータビジョンにおける深度向上のための新しい補完方式DEPTHORを提案する。
まず、合成データセットの正確な基底真理から実世界のdToFデータをシミュレートし、ノイズロバストトレーニングを可能にする。
第2に,グローバルな深度関係と文脈情報を利用して,単眼深度推定(MDE)を組み込んだ新しいネットワークを設計し,課題領域の予測を改善する。
論文 参考訳(メタデータ) (2025-04-02T11:02:21Z) - SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency [10.555957282859]
本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
論文 参考訳(メタデータ) (2024-11-14T01:53:17Z) - SG-NeRF: Neural Surface Reconstruction with Scene Graph Optimization [16.460851701725392]
本稿では,外乱ポーズの影響を軽減するため,シーングラフを用いた放射場最適化手法を提案する。
本手法では,シーングラフに基づく適応型不整合・不整合信頼度推定手法を取り入れた。
また、カメラのポーズと表面形状を最適化するために、効果的な交叉結合(IoU)損失を導入する。
論文 参考訳(メタデータ) (2024-07-17T15:50:17Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Large Language Models for Next Point-of-Interest Recommendation [53.93503291553005]
位置情報ベースのソーシャルネットワーク(LBSN)データは、しばしば次のPoint of Interest(POI)レコメンデーションタスクに使用される。
しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。
本稿では,この課題に対処するために,LLM(Large Language Models)を用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:28:36Z) - A visualization method for data domain changes in CNN networks and the optimization method for selecting thresholds in classification tasks [1.1118946307353794]
Face Anti-Spoofing (FAS) は、顔認識技術のセキュリティを維持する上で重要な役割を担っている。
偽造顔生成技術の台頭に伴い、デジタル編集された顔が反偽造に直面する課題がエスカレートしている。
本稿では,データセット上での予測結果を可視化することにより,モデルのトレーニング結果を直感的に反映する可視化手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T03:12:17Z) - Leveraging Image-Text Similarity and Caption Modification for the
DataComp Challenge: Filtering Track and BYOD Track [9.474587055642312]
本稿では,DataComp チャレンジにおけるフィルタリングトラックと BYOD トラックの両方に対するソリューションを提案する。
提案ソリューションでは,大規模なマルチモーダルモデルCLIPとBLIP-2を用いてWebクローラーデータのフィルタリングと修正を行い,外部データセットとトリックの袋を併用してデータ品質を向上させる。
論文 参考訳(メタデータ) (2023-10-23T05:40:43Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - The Second Monocular Depth Estimation Challenge [93.1678025923996]
MDEC (Monocular Depth Estimation Challenge) の第2版は、いかなる種類の監視方法にも開放された。
この課題はSynS-Patchesデータセットをベースとしており、高品質な高密度地下構造を持つ多様な環境を特徴としている。
上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。
論文 参考訳(メタデータ) (2023-04-14T11:10:07Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Noisy Student Training using Body Language Dataset Improves Facial
Expression Recognition [10.529781894367877]
本稿では,ラベル付きデータセットと非ラベル付きデータセットを組み合わせた自己学習手法を提案する。
実験分析により,ノイズの多い学生ネットワークを反復的にトレーニングすることで,より優れた結果が得られることが示された。
提案手法は,ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-06T13:45:52Z) - FenceMask: A Data Augmentation Approach for Pre-extracted Image Features [18.299882139724684]
本稿では,FenceMaskという新しいデータ拡張手法を提案する。
様々なコンピュータビジョンタスクにおいて優れたパフォーマンスを示す。
提案手法は,細粒度視覚分類タスクとVisDroneデータセットにおいて,大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T12:16:16Z) - Towards Mesh Saliency Detection in 6 Degrees of Freedom [66.00323807003699]
6DoFメッシュサリエンシデータベースは、被験者の6DoFデータと眼球運動データの両方を提供する。
そこで本研究では,一意性尺度とバイアス嗜好に基づく6DoFメッシュ・サリエンシ検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-27T02:04:33Z) - Combining Deep Learning with Geometric Features for Image based
Localization in the Gastrointestinal Tract [8.510792628268824]
そこで本研究では,Deep Learning法と従来の特徴量に基づく手法を併用して,小さなトレーニングデータを用いたより優れたローカライゼーションを実現する手法を提案する。
本手法は, セグメンテッドトレーニング画像セットにおいて, 最寄りのゾーンに数発の分類を行うために, シームズネットワーク構造を導入することにより, 両世界の長所をフル活用する。
精度は28.94% (Position) と10.97% (Orientation) で改善されている。
論文 参考訳(メタデータ) (2020-05-11T23:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。