論文の概要: SOS: Synthetic Object Segments Improve Detection, Segmentation, and Grounding
- arxiv url: http://arxiv.org/abs/2510.09110v1
- Date: Fri, 10 Oct 2025 08:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.401804
- Title: SOS: Synthetic Object Segments Improve Detection, Segmentation, and Grounding
- Title(参考訳): SOS: 合成オブジェクトセグメントが検出、セグメンテーション、グラウンド化を改善した
- Authors: Weikai Huang, Jieyu Zhang, Taoyang Jia, Chenhao Zheng, Ziqi Gao, Jae Sung Park, Ranjay Krishna,
- Abstract要約: 本稿では,オブジェクト中心の合成戦略に基づくシンプルでスケーラブルなデータ合成パイプラインであるSOSを提案する。
高品質な合成オブジェクトセグメントを、構造化されたレイアウト先行と生成的リライトを使用して、新しい画像に貼り付ける。
SOSから10万の合成画像でトレーニングされたモデルは、より大きなリアルタイムデータセットでトレーニングされたモデルよりも優れています。
- 参考スコア(独自算出の注目度): 44.30364980636359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grouping -- operationalized via instance segmentation, visual grounding, and object detection -- underpins applications from robotic perception to photo editing. Large annotated datasets are costly, biased in coverage, and hard to scale. Synthetic data are promising but often lack flexibility, accuracy, and compositional diversity. We present SOS, a simple and scalable data synthesis pipeline based on an object-centric composition strategy. It pastes high-quality synthetic object segments into new images using structured layout priors and generative relighting, producing accurate and diverse masks, boxes, and referring expressions. Models trained on 100000 synthetic images from SOS outperform those trained on larger real-image datasets such as GRIT (20M) and V3Det (200K) on detection and grounding tasks, achieving +10.9 AP on LVIS detection and +8.4 $N_{\text{Acc}}$ on gRefCOCO grounding. SOS enables controllable dataset construction and improves generalization in both low-data and closed-vocabulary settings. Augmenting LVIS and COCO with synthetic object segments yields strong performance across real-data scales and even larger gains under extremely limited real data (for example, +3.83 $AP_{\text{rare}}$ on LVIS instance segmentation and +6.59 AP with a 1 percent COCO setup). This controllability also supports targeted data generation for challenging intra-class referring in visual grounding.
- Abstract(参考訳): 視覚的なグルーピング - インスタンスのセグメンテーション、視覚的なグラウンド、オブジェクト検出を通じて運用される - は、ロボット知覚から写真編集まで、アプリケーションを支える。
大規模な注釈付きデータセットはコストが高く、カバレッジに偏りがあり、スケールが難しい。
合成データは有望だが、柔軟性、正確性、構成の多様性に欠けることが多い。
本稿では,オブジェクト中心の合成戦略に基づくシンプルでスケーラブルなデータ合成パイプラインであるSOSを提案する。
高品質な合成オブジェクトセグメントを構造化レイアウトと生成的リライティングを使用して新しいイメージに貼り付け、正確で多様なマスク、ボックス、参照表現を生成する。
GRIT (20M) や V3Det (200K) のような大規模なリアルタイムデータセットでトレーニングされた10000の合成画像でトレーニングされたモデルは、LVISの検出とグラウンドタスクにおいて+10.9 AP、gRefCOCOのグラウンドで+8.4 $N_{\text{Acc}}$を達成している。
SOSは、制御可能なデータセットの構築を可能にし、ローデータとクローズドボキャブラリの両方の設定での一般化を改善する。
LVIS と COCO を合成対象セグメントで拡張すると、実データスケールでの性能が向上し、非常に制限された実データ(例えば、LVIS インスタンスセグメンテーションの +3.83 $AP_{\text{rare}}$ や COCO の 1% の +6.59 AP など)でさらに大きなゲインが得られる。
この制御性は、視覚的な接地においてクラス内の参照に挑戦するためのターゲットデータ生成もサポートする。
関連論文リスト
- Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Synthetic data enables faster annotation and robust segmentation for
multi-object grasping in clutter [9.092550803271005]
本稿では、人間の介入を最小限に抑え、下流画像分割アルゴリズムをより堅牢にする合成データ生成手法を提案する。
実験により,提案した合成シーン生成はラベリング時間を劇的に短縮できることが示された。
Pick-and-place実験は、私たちのハイブリッドデータセット(98.9%、70%)でトレーニングされたセグメンテーションが、実際のデータセットと公開データセット(6.7%、18.8%)と(2.8%、10%)をラベリングと達成率で上回っていることを示した。
論文 参考訳(メタデータ) (2024-01-24T11:58:30Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [14.44010988811002]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - Multi-Spectral Image Synthesis for Crop/Weed Segmentation in Precision
Farming [3.4788711710826083]
本稿では, 精密農業における作物・雑草の分枝化問題に適用し, 共通データ増分法に関する代替手法を提案する。
我々は、最も関連性の高いオブジェクトクラス(作物や雑草)を合成されたクラスに置き換えることで、半人工的なサンプルを作成する。
RGBデータに加えて、近赤外(NIR)情報も考慮し、4つのチャネルマルチスペクトル合成画像を生成する。
論文 参考訳(メタデータ) (2020-09-12T08:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。