論文の概要: RAFT: Robust Augmentation of FeaTures for Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.04529v2
- Date: Mon, 02 Jun 2025 02:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.34883
- Title: RAFT: Robust Augmentation of FeaTures for Image Segmentation
- Title(参考訳): RAFT:画像セグメンテーションのためのFeaTuresのロバスト拡張
- Authors: Edward Humes, Xiaomin Lin, Uttej Kallakuri, Tinoosh Mohsenin,
- Abstract要約: RAFTは、最小ラベル付き実世界のデータを用いて画像分割モデルを適応するための新しいフレームワークである。
我々は,合成から現実の「SYNTHIA->Cityscapes」と「GTAV->Cityscapes」ベンチマークの実験を行った。
- 参考スコア(独自算出の注目度): 1.323700980948722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation is a powerful computer vision technique for scene understanding. However, real-world deployment is stymied by the need for high-quality, meticulously labeled datasets. Synthetic data provides high-quality labels while reducing the need for manual data collection and annotation. However, deep neural networks trained on synthetic data often face the Syn2Real problem, leading to poor performance in real-world deployments. To mitigate the aforementioned gap in image segmentation, we propose RAFT, a novel framework for adapting image segmentation models using minimal labeled real-world data through data and feature augmentations, as well as active learning. To validate RAFT, we perform experiments on the synthetic-to-real "SYNTHIA->Cityscapes" and "GTAV->Cityscapes" benchmarks. We managed to surpass the previous state of the art, HALO. SYNTHIA->Cityscapes experiences an improvement in mIoU* upon domain adaptation of 2.1%/79.9%, and GTAV->Cityscapes experiences a 0.4%/78.2% improvement in mIoU. Furthermore, we test our approach on the real-to-real benchmark of "Cityscapes->ACDC", and again surpass HALO, with a gain in mIoU upon adaptation of 1.3%/73.2%. Finally, we examine the effect of the allocated annotation budget and various components of RAFT upon the final transfer mIoU.
- Abstract(参考訳): イメージセグメンテーションはシーン理解のための強力なコンピュータビジョン技術である。
しかし、現実世界のデプロイメントは、高品質で綿密にラベル付けされたデータセットの必要性に悩まされている。
合成データは、手動のデータ収集とアノテーションの必要性を低減しつつ、高品質なラベルを提供する。
しかしながら、合成データに基づいてトレーニングされたディープニューラルネットワークは、多くの場合、Syn2Realの問題に直面し、実際のデプロイメントのパフォーマンスが低下する。
イメージセグメンテーションのギャップを軽減するために、RAFTを提案する。RAFTは、最小ラベル付き実世界のデータと特徴拡張、アクティブラーニングによって画像セグメンテーションモデルを適応するための新しいフレームワークである。
RAFTを検証するために,合成から現実の「SYNTHIA->Cityscapes」と「GTAV->Cityscapes」ベンチマークの実験を行った。
私たちは、かつての最先端のHALOをなんとか越えました。
SynthIA->Cityscapesは2.1%/79.9%のドメイン適応でmIoU*の改善を経験し、GTAV->CityscapesはmIoU0.4%/78.2%の改善を経験した。
さらに、我々のアプローチは"Cityscapes->ACDC"の実際のベンチマークで検証され、再びHALOを上回り、mIoUは1.3%/73.2%の適応率で上昇した。
最後に、割り当てられたアノテーション予算とRAFTの様々なコンポーネントが最終転送mIoUに与える影響について検討する。
関連論文リスト
- Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。