Fugu-MT 論文翻訳(概要): DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency

論文の概要: DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency

arxiv url: http://arxiv.org/abs/2306.04654v1
Date: Tue, 6 Jun 2023 15:04:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 18:22:07.119889
Title: DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency
Title（参考訳）: DenseDino: トークンベースのポイントレベル一貫性による高密度自己指導学習の促進
Authors: Yike Yuan, Xinghe Fu, Yunlong Yu, Xi Li
Abstract要約: 本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
参考スコア（独自算出の注目度）: 12.881617910150688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a simple yet effective transformer framework for self-supervised learning called DenseDINO to learn dense visual representations. To exploit the spatial information that the dense prediction tasks require but neglected by the existing self-supervised transformers, we introduce point-level supervision across views in a novel token-based way. Specifically, DenseDINO introduces some extra input tokens called reference tokens to match the point-level features with the position prior. With the reference token, the model could maintain spatial consistency and deal with multi-object complex scene images, thus generalizing better on dense prediction tasks. Compared with the vanilla DINO, our approach obtains competitive performance when evaluated on classification in ImageNet and achieves a large margin (+7.2% mIoU) improvement in semantic segmentation on PascalVOC under the linear probing protocol for segmentation.
Abstract（参考訳）: 本稿では,DenseDINOと呼ばれる自己教師型学習のための簡易かつ効果的なトランスフォーマフレームワークを提案する。従来の自己監督型トランスフォーマーでは,高密度な予測タスクは必要だが無視される空間情報を活用するために,新しいトークンベース方式で視点を横断するポイントレベルの監視を導入する。具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。参照トークンを用いて、モデルは空間的整合性を維持し、多目的複雑なシーン画像を扱うことができ、より密集した予測タスクをより一般化することができる。バニラ・ディノと比較すると,imagenetの分類で評価した場合の競争性能が向上し,セグメンテーションのための線形プローブプロトコルの下でpascalvocの意味セグメンテーションにおいて,大きなマージン(+7.2%miou)が向上した。

関連論文リスト

Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
A Lightweight Clustering Framework for Unsupervised Semantic Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-11-30T15:33:42Z)
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文参考訳（メタデータ） (2023-08-23T18:53:00Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文参考訳（メタデータ） (2022-04-06T17:48:18Z)
Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文参考訳（メタデータ） (2021-07-25T11:39:58Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文参考訳（メタデータ） (2020-04-12T03:53:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。