論文の概要: BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering
- arxiv url: http://arxiv.org/abs/2410.15060v1
- Date: Sat, 19 Oct 2024 10:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:48.894887
- Title: BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering
- Title(参考訳): BYOCL: 階層的な代表ラテントクラスタリングで独自の一貫性のあるラテントを構築する
- Authors: Jiayue Dai, Yunya Wang, Yihan Fang, Yuetong Chen, Butian Xiong,
- Abstract要約: BYOCLは、入力を小さなバッチに分割することで、時間と空間消費を著しく削減する。
提案手法では,SAM画像エンコーダを用いて特徴抽出を行い,次にバッチ内クラスタリングアルゴリズムとバッチ間クラスタリングアルゴリズムを用いる。
私たちの研究は、トレーニングを必要とせず、基礎モデルを使って一貫したセグメンテーションを適用した最初のものです。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: To address the semantic inconsistency issue with SAM or other single-image segmentation models handling image sequences, we introduce BYOCL. This novel model outperforms SAM in extensive experiments, showcasing its Hierarchical prototype capabilities across CLIP and other representations. BYOCL significantly reduces time and space consumption by dividing inputs into smaller batches, achieving exponential time reduction compared to previous methods. Our approach leverages the SAM image encoder for feature extraction, followed by Intra-Batch and Inter-Batch clustering algorithms. Extensive experiments demonstrate that BYOCL far exceeds the previous state-of-the-art single image segmentation model. Our work is the first to apply consistent segmentation using foundation models without requiring training, utilizing plug-and-play modules for any latent space, making our method highly efficientModels are available at \href{https://github.com/cyt1202/BYOCL.git
- Abstract(参考訳): 画像シーケンスを扱うSAMや他の単一画像分割モデルとのセマンティック不整合問題に対処するため,BYOCLを提案する。
この新モデルはSAMを広範な実験で上回り、CLIPや他の表現にまたがる階層的なプロトタイプ機能を示している。
BYOCLは、入力を小さなバッチに分割することで、時間と空間消費を著しく削減し、従来の方法と比較して指数的な時間短縮を実現している。
提案手法では,SAM画像エンコーダを用いて特徴抽出を行い,次にバッチ内クラスタリングアルゴリズムとバッチ間クラスタリングアルゴリズムを用いる。
大規模な実験により、BYOCLは以前の最先端の単一画像分割モデルよりはるかに優れていることが示された。
私たちの作業は、トレーニングを必要とせず、基礎モデルを使用して一貫したセグメンテーションを初めて適用し、どの潜在空間でもプラグイン・アンド・プレイモジュールを利用することで、非常に効率的なModelが、 \href{https://github.com/cyt1202/BYOCL.gitで利用可能になります。
関連論文リスト
- SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。
提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。
CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-25T01:12:48Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、ダイナセグは動的重み付け方式を採用している。
画像の特徴に柔軟に対応し、他のセグメンテーションネットワークとの統合を容易にする。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding [40.40630116715132]
一般公開されたビジョンファウンデーションモデル(VFM)の展望は急速に拡大している。
我々は,VFMを効率よく統合したモデルにマージする簡単なレシピを導入し,その専門知識を吸収する。
本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。
論文 参考訳(メタデータ) (2023-10-23T19:21:57Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。