論文の概要: Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation
- arxiv url: http://arxiv.org/abs/2410.19836v1
- Date: Sun, 20 Oct 2024 13:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:49:35.336250
- Title: Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation
- Title(参考訳): 教師なし視覚タスクと弱教師付き材料セグメンテーションのためのDINOv2機能のアップサンプリング
- Authors: Ronan Docherty, Antonis Vamvakeros, Samuel J. Cooper,
- Abstract要約: 自己監督型視覚変換器(ViT)は、オブジェクトのローカライゼーションやセグメンテーションといった下流タスクに関連する強力な意味情報と位置情報を含んでいる。
最近の研究は、これらの機能をクラスタリングやグラフパーティショニング、リージョン相関といった従来の手法と組み合わせて、追加のネットワークを微調整したり訓練したりすることなく、印象的なベースラインを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The features of self-supervised vision transformers (ViTs) contain strong semantic and positional information relevant to downstream tasks like object localization and segmentation. Recent works combine these features with traditional methods like clustering, graph partitioning or region correlations to achieve impressive baselines without finetuning or training additional networks. We leverage upsampled features from ViT networks (e.g DINOv2) in two workflows: in a clustering based approach for object localization and segmentation, and paired with standard classifiers in weakly supervised materials segmentation. Both show strong performance on benchmarks, especially in weakly supervised segmentation where the ViT features capture complex relationships inaccessible to classical approaches. We expect the flexibility and generalizability of these features will both speed up and strengthen materials characterization, from segmentation to property-prediction.
- Abstract(参考訳): 自己監督型視覚変換器(ViT)の特徴は、オブジェクトのローカライゼーションやセグメンテーションといった下流タスクに関連する強力な意味情報と位置情報を含んでいる。
最近の研究は、これらの機能をクラスタリングやグラフパーティショニング、リージョン相関といった従来の手法と組み合わせて、追加のネットワークを微調整したり訓練したりすることなく、印象的なベースラインを達成している。
我々は、オブジェクトのローカライゼーションとセグメンテーションのためのクラスタリングベースのアプローチで、ViTネットワーク(例えばDINOv2)のアップサンプリング機能を活用し、弱教師付き材料セグメンテーションにおける標準分類器とペアリングする。
どちらも、特にViT機能が古典的アプローチに到達できない複雑な関係をキャプチャする弱い教師付きセグメンテーションにおいて、ベンチマークで強いパフォーマンスを示す。
これらの特徴の柔軟性と一般化性は、セグメンテーションからプロパティ予測まで、材料特性の高速化と強化の両立を期待する。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Instance Adaptive Prototypical Contrastive Embedding for Generalized
Zero Shot Learning [11.720039414872296]
一般的なゼロショット学習は、トレーニング中に目に見えないラベルがアクセスできないと仮定して、目に見えないラベルと見えないラベルからサンプルを分類することを目的としている。
GZSLの最近の進歩は、生成ネットワークにコントラッシブラーニングベースの埋め込みを組み込むことによって、加速している。
論文 参考訳(メタデータ) (2023-09-13T14:26:03Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Deep ViT Features as Dense Visual Descriptors [12.83702462166513]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
論文 参考訳(メタデータ) (2021-12-10T20:15:03Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。