論文の概要: Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding
- arxiv url: http://arxiv.org/abs/2412.00684v1
- Date: Sun, 01 Dec 2024 05:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:15.504435
- Title: Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding
- Title(参考訳): ボックスの外のペイント:ビジュアルグラウンドのためのトレーニングデータの合成と選択
- Authors: Zilin Du, Haoxin Li, Jianfei Yu, Boyang Li,
- Abstract要約: データ不足に対処するための新しいフレームワークPOBF(Paint Outside the Box, then Filter)を提案する。
PoBFは、ボックスの外側に塗布してイメージを合成し、以前の作品で遭遇したラベルの不一致問題に対処する。
PoBFは4つのデータセットで優れたパフォーマンスを実現し、平均5.83%の改善を提供する。
- 参考スコア(独自算出の注目度): 19.998612093646422
- License:
- Abstract: Visual grounding aims to localize the image regions based on a textual query. Given the difficulty of large-scale data curation, we investigate how to effectively learn visual grounding under data-scarce settings in this paper. To address data scarcity, we propose a novel framework, POBF (Paint Outside the Box, then Filter). POBF synthesizes images by inpainting outside the box, tackling a label misalignment issue encountered in previous works. Furthermore, POBF leverages an innovative filtering scheme to identify the most effective training data. This scheme combines a hardness score and an overfitting score, balanced by a penalty term. Experimental results show that POBF achieves superior performance across four datasets, delivering an average improvement of 5.83% and outperforming leading baselines by 2.29% to 3.85% in accuracy. Additionally, we validate the robustness and generalizability of POBF across various generative models, data ratios, and model architectures.
- Abstract(参考訳): Visual Groundingは、画像領域をテキストクエリに基づいてローカライズすることを目的としている。
本稿では,大規模データキュレーションの難しさを踏まえ,データスカース設定下で視覚的接地を効果的に学習する方法を検討する。
データ不足に対処するため,新しいフレームワークPOBF(Paint Outside the Box, then Filter)を提案する。
POBFは、以前の作品で遭遇したラベルのミスアライメント問題に対処して、ボックスの外側にペンキを塗ることで画像を合成する。
さらに、POBFは、最も効果的なトレーニングデータを特定するために革新的なフィルタリング手法を利用している。
このスキームは、ペナルティ項によってバランスが取れた硬度スコアと過度に適合するスコアを組み合わせたものである。
実験の結果、POBFは4つのデータセットで優れたパフォーマンスを示し、5.83%の平均的な改善を実現し、リードベースラインを2.29%から3.85%の精度で上回っている。
さらに、様々な生成モデル、データ比、モデルアーキテクチャにおけるPOBFの堅牢性と一般化性を検証する。
関連論文リスト
- SG-NeRF: Neural Surface Reconstruction with Scene Graph Optimization [16.460851701725392]
本稿では,外乱ポーズの影響を軽減するため,シーングラフを用いた放射場最適化手法を提案する。
本手法では,シーングラフに基づく適応型不整合・不整合信頼度推定手法を取り入れた。
また、カメラのポーズと表面形状を最適化するために、効果的な交叉結合(IoU)損失を導入する。
論文 参考訳(メタデータ) (2024-07-17T15:50:17Z) - Large Language Models for Next Point-of-Interest Recommendation [53.93503291553005]
位置情報ベースのソーシャルネットワーク(LBSN)データは、しばしば次のPoint of Interest(POI)レコメンデーションタスクに使用される。
しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。
本稿では,この課題に対処するために,LLM(Large Language Models)を用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:28:36Z) - A visualization method for data domain changes in CNN networks and the optimization method for selecting thresholds in classification tasks [1.1118946307353794]
Face Anti-Spoofing (FAS) は、顔認識技術のセキュリティを維持する上で重要な役割を担っている。
偽造顔生成技術の台頭に伴い、デジタル編集された顔が反偽造に直面する課題がエスカレートしている。
本稿では,データセット上での予測結果を可視化することにより,モデルのトレーニング結果を直感的に反映する可視化手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T03:12:17Z) - Leveraging Image-Text Similarity and Caption Modification for the
DataComp Challenge: Filtering Track and BYOD Track [9.474587055642312]
本稿では,DataComp チャレンジにおけるフィルタリングトラックと BYOD トラックの両方に対するソリューションを提案する。
提案ソリューションでは,大規模なマルチモーダルモデルCLIPとBLIP-2を用いてWebクローラーデータのフィルタリングと修正を行い,外部データセットとトリックの袋を併用してデータ品質を向上させる。
論文 参考訳(メタデータ) (2023-10-23T05:40:43Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - The Second Monocular Depth Estimation Challenge [93.1678025923996]
MDEC (Monocular Depth Estimation Challenge) の第2版は、いかなる種類の監視方法にも開放された。
この課題はSynS-Patchesデータセットをベースとしており、高品質な高密度地下構造を持つ多様な環境を特徴としている。
上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。
論文 参考訳(メタデータ) (2023-04-14T11:10:07Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - FenceMask: A Data Augmentation Approach for Pre-extracted Image Features [18.299882139724684]
本稿では,FenceMaskという新しいデータ拡張手法を提案する。
様々なコンピュータビジョンタスクにおいて優れたパフォーマンスを示す。
提案手法は,細粒度視覚分類タスクとVisDroneデータセットにおいて,大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T12:16:16Z) - Towards Mesh Saliency Detection in 6 Degrees of Freedom [66.00323807003699]
6DoFメッシュサリエンシデータベースは、被験者の6DoFデータと眼球運動データの両方を提供する。
そこで本研究では,一意性尺度とバイアス嗜好に基づく6DoFメッシュ・サリエンシ検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-27T02:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。