論文の概要: Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2501.10080v1
- Date: Fri, 17 Jan 2025 09:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:37.486858
- Title: Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks
- Title(参考訳): 基礎モデルとグラフニューラルネットワークを用いた少数ショット構造インフォームド機械部品分割
- Authors: Michael Schwingshackl, Fabio Francisco Oberweger, Markus Murschitz,
- Abstract要約: 本稿では,空間的および階層的な関係を示す複数の部分を持つ機械に対して,少数ショットのセマンティックセマンティックセマンティックセマンティクスを提案する。
提案手法は,基礎モデルであるCLIPSegとSegment Anything Model(SAM)を,関心点検出器SuperPointとGCN(Graph Convolutional Network)と統合し,機械部品を正確に分割する。
本モデルは,トラック搭載の積載クレーンを表現した純粋に合成したデータセットを用いて評価し,様々な詳細レベルにわたって効果的セグメンテーションを実現する。
- 参考スコア(独自算出の注目度): 1.5293427903448022
- License:
- Abstract: This paper proposes a novel approach to few-shot semantic segmentation for machinery with multiple parts that exhibit spatial and hierarchical relationships. Our method integrates the foundation models CLIPSeg and Segment Anything Model (SAM) with the interest point detector SuperPoint and a graph convolutional network (GCN) to accurately segment machinery parts. By providing 1 to 25 annotated samples, our model, evaluated on a purely synthetic dataset depicting a truck-mounted loading crane, achieves effective segmentation across various levels of detail. Training times are kept under five minutes on consumer GPUs. The model demonstrates robust generalization to real data, achieving a qualitative synthetic-to-real generalization with a $J\&F$ score of 92.2 on real data using 10 synthetic support samples. When benchmarked on the DAVIS 2017 dataset, it achieves a $J\&F$ score of 71.5 in semi-supervised video segmentation with three support samples. This method's fast training times and effective generalization to real data make it a valuable tool for autonomous systems interacting with machinery and infrastructure, and illustrate the potential of combined and orchestrated foundation models for few-shot segmentation tasks.
- Abstract(参考訳): 本稿では,空間的および階層的な関係を示す複数の部品を持つ機械の少数ショットセマンティックセマンティックセマンティックセマンティクスに対する新しいアプローチを提案する。
提案手法は,基礎モデルであるCLIPSegとSegment Anything Model(SAM)を,関心点検出器SuperPointとGCN(Graph Convolutional Network)と統合し,機械部品を正確に分割する。
トラック搭載の積載クレーンを表現した純粋に合成したデータセットを用いて,1~25個のアノテートサンプルを提供することにより,各レベルの細部を効果的にセグメンテーションすることができる。
トレーニング時間は、消費者向けGPUで5分以内である。
このモデルは、実データに対する堅牢な一般化を示し、10の合成支援サンプルを用いて、実データ上で92.2のスコアで定性的な合成対実一般化を実現する。
DAVIS 2017データセットでベンチマークされると、3つのサポートサンプルを持つ半教師付きビデオセグメンテーションで71.5ドルのJ\&F$スコアを達成している。
この手法の高速な訓練時間と実データへの効果的な一般化は、機械やインフラと相互作用する自律システムにとって貴重なツールとなり、数ショットのセグメンテーションタスクのための統合された基礎モデルの可能性を示している。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Chair Segments: A Compact Benchmark for the Study of Object Segmentation [12.16129964498819]
ChairSegmentsは、オブジェクトセグメンテーションのための、新しくてコンパクトな半合成データセットである。
画像分類における最近の知見を反映した転帰学習における経験的知見を示す。
論文 参考訳(メタデータ) (2020-12-02T14:54:03Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。