論文の概要: PASTA: Vision Transformer Patch Aggregation for Weakly Supervised Target and Anomaly Segmentation
- arxiv url: http://arxiv.org/abs/2604.09701v1
- Date: Tue, 07 Apr 2026 08:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.61125
- Title: PASTA: Vision Transformer Patch Aggregation for Weakly Supervised Target and Anomaly Segmentation
- Title(参考訳): PASTA: 弱い監視対象と異常セグメンテーションのための視覚変換器パッチアグリゲーション
- Authors: Melanie Neubauer, Elmar Rueckert, Christian Rauch,
- Abstract要約: PASTAは、自己教師型視覚変換器の特徴空間における分布解析を通して、ターゲットと異常オブジェクトを識別する。
我々のパイプラインは、セグメンション・エキシング・モデル3を介して意味的なテキスト・プロンプトを使用して、ゼロショットオブジェクトのセグメンテーションを誘導する。
本手法は, ドメインに依存しないが, 工業・農業領域において優れたターゲット(最大88.3%IoU)と異常(最大3.5%IoU6IoU)のセグメンテーション性能を達成する。
- 参考スコア(独自算出の注目度): 4.14197005718384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting unseen anomalies in unstructured environments presents a critical challenge for industrial and agricultural applications such as material recycling and weeding. Existing perception systems frequently fail to satisfy the strict operational requirements of these domains, specifically real-time processing, pixel-level segmentation precision, and robust accuracy, due to their reliance on exhaustively annotated datasets. To address these limitations, we propose a weakly supervised pipeline for object segmentation and classification using weak image-level supervision called 'Patch Aggregation for Segmentation of Targets and Anomalies' (PASTA). By comparing an observed scene with a nominal reference, PASTA identifies Target and Anomaly objects through distribution analysis in self-supervised Vision Transformer (ViT) feature spaces. Our pipeline utilizes semantic text-prompts via the Segment Anything Model 3 to guide zero-shot object segmentation. Evaluations on a custom steel scrap recycling dataset and a plant dataset demonstrate a 75.8% training time reduction of our approach to domain-specific baselines. While being domain-agnostic, our method achieves superior Target (up to 88.3% IoU) and Anomaly (up to 63.5% IoU) segmentation performance in the industrial and agricultural domain.
- Abstract(参考訳): 非構造環境における異常検出は, 資源リサイクルや雑草等の産業・農業分野における重要な課題である。
既存の知覚システムは、特にリアルタイム処理、ピクセルレベルのセグメンテーション精度、堅牢な精度など、完全に注釈付けされたデータセットに依存しているため、これらの領域の厳密な運用要件を満たすことができないことが多い。
これらの制約に対処するために,「ターゲットと異常のセグメンテーションのためのパッチ集約(Patch Aggregation for Segmentation of Targets and Anomalies)」(PASTA)と呼ばれる画像レベルの弱い監督を用いた,オブジェクトのセグメンテーションと分類のための弱教師付きパイプラインを提案する。
PASTAは、観察されたシーンを名目上の参照と比較することにより、自己監督型視覚変換器(ViT)特徴空間における分布解析を通してターゲットと異常物体を識別する。
我々のパイプラインは、セグメンション・エキシング・モデル3を介して意味的なテキスト・プロンプトを使用して、ゼロショットオブジェクトのセグメンテーションを誘導する。
カスタムスチールスクラップリサイクルデータセットとプラントデータセットの評価は、ドメイン固有のベースラインへのアプローチの75.8%のトレーニング時間短縮を実証している。
本手法は, ドメインに依存しないが, 工業・農業領域において, 優れたターゲット(最大88.3% IoU)と異常(最大63.5% IoU)のセグメンテーション性能を達成する。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains [6.6492664858930475]
本稿では,貨物列車の故障検出に適した軽量なインスタンスセグメント化フレームワークを提案する。
本手法は,タスク固有のプロンプトを自動生成する自己プロンプト生成モジュールを導入することで,セグメンテーションモデルを活用する。
さらに、Tiny Vision Transformerのバックボーンを採用して計算コストを削減し、鉄道監視システムにおけるエッジデバイスへのリアルタイム展開に適したフレームワークを実現する。
論文 参考訳(メタデータ) (2026-03-13T03:56:37Z) - Edge-Optimized Vision-Language Models for Underground Infrastructure Assessment [1.5124107808802705]
本稿では,地下欠陥のエンドツーエンド要約のための新しい2段階パイプラインを提案する。
私たちの軽量なRAPID-SCANセグメンテーションモデルと、エッジコンピューティングプラットフォームにデプロイされた微調整されたビジョンランゲージモデルを組み合わせています。
この結果から,自動欠陥検出とインフラストラクチャ保守のための実用的な洞察とのギャップを埋めるために,エッジデプロイ可能な統合AIシステムの可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T17:03:46Z) - Instance-Guided Unsupervised Domain Adaptation for Robotic Semantic Segmentation [4.556831252263135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、外部の監視なしにロボットのターゲット環境にネットワークを適応させる。
本稿では,3次元地図から始まる多視点一貫した擬似ラベルを生成する手法を提案する。
ファウンデーションモデルのゼロショットインスタンスセグメンテーション機能を用いて、これらのラベルを洗練し、インスタンスレベルのコヒーレンスを強制する。
論文 参考訳(メタデータ) (2026-02-01T18:49:03Z) - SOPSeg: Prompt-based Small Object Instance Segmentation in Remote Sensing Imagery [19.743431031185736]
リモートセンシング画像における小さなオブジェクトセグメンテーションに特化して設計された,プロンプトベースのフレームワークSOPSegを提案する。
きめ細かい詳細を保存するための領域適応倍率戦略を取り入れており、エッジ予測とプログレッシブ改良を統合したカスタマイズデコーダを採用している。
SOPSegは、既存のメソッドを小さなオブジェクトセグメンテーションで上回り、リモートセンシングタスクのための効率的なデータセット構築を容易にする。
論文 参考訳(メタデータ) (2025-09-03T04:25:03Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - Unsupervised Instance Segmentation in Microscopy Images via Panoptic
Domain Adaptation and Task Re-weighting [86.33696045574692]
病理組織像における教師なし核分割のためのCycle Consistency Panoptic Domain Adaptive Mask R-CNN(CyC-PDAM)アーキテクチャを提案する。
まず,合成画像中の補助的な生成物を除去するための核塗布機構を提案する。
第二に、ドメイン識別器を持つセマンティックブランチは、パンプトレベルのドメイン適応を実現するように設計されている。
論文 参考訳(メタデータ) (2020-05-05T11:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。