論文の概要: SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation
- arxiv url: http://arxiv.org/abs/2603.02648v1
- Date: Tue, 03 Mar 2026 06:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.666667
- Title: SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation
- Title(参考訳): SEP-YOLO:透明オブジェクトインスタンスセグメンテーションのためのフーリエドメイン特徴表現
- Authors: Fengming Zhang, Tao Yan, Jianchao Huang,
- Abstract要約: 透明なオブジェクトインスタンスセグメンテーションのための二重ドメイン協調機構を統合する新しいフレームワークであるSEP-YOLOを提案する。
本手法は周波数領域詳細拡張モジュールを組み込み,弱い高周波境界成分を分離・拡張する。
SEP-YOLOは、Trans10KおよびGVDデータセットの実験において、最先端(SOTA)性能を達成することを示す。
- 参考スコア(独自算出の注目度): 1.6445896934743567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent object instance segmentation presents significant challenges in computer vision, due to the inherent properties of transparent objects, including boundary blur, low contrast, and high dependence on background context. Existing methods often fail as they depend on strong appearance cues and clear boundaries. To address these limitations, we propose SEP-YOLO, a novel framework that integrates a dual-domain collaborative mechanism for transparent object instance segmentation. Our method incorporates a Frequency Domain Detail Enhancement Module, which separates and enhances weak highfrequency boundary components via learnable complex weights. We further design a multi-scale spatial refinement stream, which consists of a Content-Aware Alignment Neck and a Multi-scale Gated Refinement Block, to ensure precise feature alignment and boundary localization in deep semantic features. We also provide high-quality instance-level annotations for the Trans10K dataset, filling the critical data gap in transparent object instance segmentation. Extensive experiments on the Trans10K and GVD datasets show that SEP-YOLO achieves state-of-the-art (SOTA) performance.
- Abstract(参考訳): 透明なオブジェクトインスタンスのセグメンテーションは、境界のぼやけ、低コントラスト、背景コンテキストへの高い依存など、透明なオブジェクト固有の性質のため、コンピュータビジョンにおいて重要な課題を呈している。
既存の方法は、強い外観と明確な境界に依存するため、しばしば失敗する。
これらの制約に対処するため,透過的なオブジェクトインスタンスのセグメンテーションのための二重ドメイン協調機構を統合する新しいフレームワークであるSEP-YOLOを提案する。
本手法には周波数領域詳細拡張モジュールが組み込まれており、学習可能な複素重みによって弱い高周波境界成分を分離・拡張する。
さらに,コンテント・アライメント・ネック(Content-Aware Alignment Neck)とマルチスケール・ゲーテッド・リファインメント・ブロック(Multi-scale Gated Refinement Block)で構成されるマルチスケール空間改善ストリームを設計し,深い意味的特徴の正確な特徴アライメントと境界ローカライゼーションを確保する。
また、トランス10Kデータセットに対して高品質なインスタンスレベルのアノテーションを提供し、透明なオブジェクトインスタンスセグメンテーションにおいて重要なデータギャップを埋めます。
Trans10KとGVDデータセットの大規模な実験は、SEP-YOLOが最先端(SOTA)のパフォーマンスを達成することを示している。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
アンカーベースオブジェクト検出のための新しい形式検証フレームワークである sc sf IoUCert を紹介する。
本手法は, SSD, YOLOv2, YOLOv3など, リアルなアンカーベースモデルの様々な入力摂動に対する検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。
オブジェクトレベルの表現を画像内および画像間の整合性で学習する。
COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文 参考訳(メタデータ) (2024-03-03T11:24:16Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - FakeMix Augmentation Improves Transparent Object Detection [24.540569928274984]
境界関係の不均衡問題を克服するために、FakeMixと呼ばれる新しいコンテンツ依存データ拡張法を提案する。
また,マルチスケールおよびクロスモダリティ機能を動的にキャプチャ可能な,asppの拡張版であるadaptiveasppも紹介する。
論文 参考訳(メタデータ) (2021-03-24T15:51:37Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。