Fugu-MT 論文翻訳(概要): Benchmarking Semantic Segmentation Models via Appearance and Geometry Attribute Editing

論文の概要: Benchmarking Semantic Segmentation Models via Appearance and Geometry Attribute Editing

arxiv url: http://arxiv.org/abs/2603.01535v1
Date: Mon, 02 Mar 2026 07:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.72736
Title: Benchmarking Semantic Segmentation Models via Appearance and Geometry Attribute Editing
Title（参考訳）: 出現・幾何学属性編集による意味分割モデルのベンチマーク
Authors: Zijin Yin, Bing Li, Kongming Liang, Hao Sun, Zhongjiang He, Zhanyu Ma, Jun Guo,
Abstract要約: 我々はストレステストセマンティックセグメンテーションモデルのための自動データ生成パイプラインGen4Segを構築した。クローズドセットモデルからオープンボキャブラリ大モデルまで,さまざまなセマンティックセグメンテーションモデルをベンチマークする。本研究は, セグメンテーションモデルを自動的に解析する有効なツールとして, 生成モデルの可能性を提案する。
参考スコア（独自算出の注目度）: 45.359144639209205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic segmentation takes pivotal roles in various applications such as autonomous driving and medical image analysis. When deploying segmentation models in practice, it is critical to test their behaviors in varied and complex scenes in advance. In this paper, we construct an automatic data generation pipeline Gen4Seg to stress-test semantic segmentation models by generating various challenging samples with different attribute changes. Beyond previous evaluation paradigms focusing solely on global weather and style transfer, we investigate variations in both appearance and geometry attributes at the object and image level. These include object color, material, size, position, as well as image-level variations such as weather and style. To achieve this, we propose to edit visual attributes of existing real images with precise control of structural information, empowered by diffusion models. In this way, the existing segmentation labels can be reused for the edited images, which greatly reduces the labor costs. Using our pipeline, we construct two new benchmarks, Pascal-EA and COCO-EA. We benchmark a wide variety of semantic segmentation models, spanning from closed-set models to open-vocabulary large models. We have several key findings: 1) advanced open-vocabulary models do not exhibit greater robustness compared to closed-set methods under geometric variations; 2) data augmentation techniques, such as CutOut and CutMix, are limited in enhancing robustness against appearance variations; 3) our pipeline can also be employed as a data augmentation tool and improve both in-distribution and out-of-distribution performances. Our work suggests the potential of generative models as effective tools for automatically analyzing segmentation models, and we hope our findings will assist practitioners and researchers in developing more robust and reliable segmentation models.
Abstract（参考訳）: セマンティックセグメンテーションは、自律運転や医療画像解析などの様々な応用において重要な役割を担っている。セグメンテーションモデルを実際にデプロイする場合、事前に様々な複雑なシーンでそれらの振る舞いをテストすることが重要である。本稿では,異なる属性変化を持つ様々な挑戦的なサンプルを生成することで,ストレス-テストセマンティックセマンティクスモデルのための自動データ生成パイプラインGen4Segを構築した。これまでの評価パラダイムは,グローバルな気象やスタイルの移動に重点を置いていたが,オブジェクトや画像レベルでの外観特性や幾何学特性の変動について検討した。対象色、素材、サイズ、位置、および天気やスタイルなどの画像レベルのバリエーションが含まれる。そこで本研究では,既存の実画像の視覚的属性を,拡散モデルによって付与された構造情報の正確な制御で編集することを提案する。このように、既存のセグメンテーションラベルを編集画像に再利用することで、作業コストを大幅に削減することができる。パイプラインを使用して、Pascal-EAとCOCO-EAという2つの新しいベンチマークを構築します。クローズドセットモデルからオープンボキャブラリ大モデルまで,さまざまなセマンティックセグメンテーションモデルをベンチマークする。いくつかの重要な発見があります。 1) 高度な開語彙モデルは、幾何学的変動の下での閉集合法に比べ、より堅牢性を示すものではない。 2) CutOut や CutMix などのデータ拡張技術は,外観変化に対する堅牢性の向上に制限されている。 3) パイプラインはデータ拡張ツールとしても利用でき,分散処理と分散処理の両方のパフォーマンスが向上する。本研究は, セグメンテーションモデルを自動的に解析する有効なツールとして, 生成モデルの可能性を提案する。

関連論文リスト

How to Squeeze An Explanation Out of Your Model [13.154512864498912]
本稿では,モデルに依存しない解釈可能性のアプローチを提案する。任意のモデルの分類レイヤーの前にSEブロックを含めることで、最も影響力のある特徴を検索することができる。以上の結果から,新たなSEベースの解釈性は,画像およびビデオ/マルチモーダル設定の様々なモデルに適用可能であることがわかった。
論文参考訳（メタデータ） (2024-12-06T15:47:53Z)
Analyzing Deep Transformer Models for Time Series Forecasting via Manifold Learning [4.910937238451485]
トランスフォーマーモデルは、自然言語処理やコンピュータビジョンといった様々な領域において、一貫して顕著な成果を上げてきた。これらのモデルをよりよく理解するための継続的な研究努力にもかかわらず、この分野はいまだに包括的な理解を欠いている。画像やテキスト情報とは異なり、時系列データは解釈し分析することがより困難である。
論文参考訳（メタデータ） (2024-10-17T17:32:35Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Segmenting Object Affordances: Reproducibility and Sensitivity to Scale [27.277739855754447]
セマンティックセグメンテーションのための学習に基づくアーキテクチャを、アベイランスセグメンテーションタスクに再利用し、適応する手法。 2つの単一オブジェクトのシナリオで再現可能な設定でこれらのメソッドをベンチマークする。我々の分析は、オブジェクトの解像度がトレーニングセットと異なる場合、モデルは変動をスケールするのに堅牢ではないことを示している。
論文参考訳（メタデータ） (2024-09-03T11:54:36Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Benchmarking Segmentation Models with Mask-Preserved Attribute Editing [25.052698108262838]
本研究では,ロバストネス評価のための局所特性およびグローバル特性の変動について検討する。そこで我々は,実際の画像の視覚的属性を編集するマスク保存属性編集パイプラインを構築した。パイプラインを使用して、オブジェクト属性とイメージ属性の両方をカバーするベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-02T15:20:09Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
The Importance of Downstream Networks in Digital Pathology Foundation Models [1.689369173057502]
162のアグリゲーションモデル構成を持つ3つの異なるデータセットにまたがる7つの特徴抽出モデルを評価する。多くの特徴抽出器モデルの性能は顕著に類似していることが判明した。
論文参考訳（メタデータ） (2023-11-29T16:54:25Z)
SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文参考訳（メタデータ） (2022-07-13T14:41:05Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。