論文の概要: Unsupervised Learning on a DIET: Datum IndEx as Target Free of
Self-Supervision, Reconstruction, Projector Head
- arxiv url: http://arxiv.org/abs/2302.10260v1
- Date: Mon, 20 Feb 2023 19:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-02-22 17:20:37.808212
- Title: Unsupervised Learning on a DIET: Datum IndEx as Target Free of
Self-Supervision, Reconstruction, Projector Head
- Title(参考訳): DIETにおける教師なし学習:自己スーパービジョン、再構築、プロジェクタヘッドの目的としてのDatum IndEx
- Authors: Randall Balestriero
- Abstract要約: textbfDIETはデコーダ/プロジェクタネットワークなしで動作し、肯定的なペアや再構築に基づいていない。
textbfDIETの単純さにもかかわらず、学習された表現は高品質であり、最先端のtextite.gと同等であることが多い。
- 参考スコア(独自算出の注目度): 9.868558660605995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Costly, noisy, and over-specialized, labels are to be set aside in favor of
unsupervised learning if we hope to learn cheap, reliable, and transferable
models. To that end, spectral embedding, self-supervised learning, or
generative modeling have offered competitive solutions. Those methods however
come with numerous challenges \textit{e.g.} estimating geodesic distances,
specifying projector architectures and anti-collapse losses, or specifying
decoder architectures and reconstruction losses. In contrast, we introduce a
simple explainable alternative -- coined \textbf{DIET} -- to learn
representations from unlabeled data, free of those challenges. \textbf{DIET} is
blatantly simple: take one's favorite classification setup and use the
\textbf{D}atum \textbf{I}nd\textbf{E}x as its \textbf{T}arget class,
\textit{i.e. each sample is its own class}, no further changes needed.
\textbf{DIET} works without a decoder/projector network, is not based on
positive pairs nor reconstruction, introduces no hyper-parameters, and works
out-of-the-box across datasets and architectures. Despite \textbf{DIET}'s
simplicity, the learned representations are of high-quality and often on-par
with the state-of-the-art \textit{e.g.} using a linear classifier on top of
DIET's learned representation reaches $71.4\%$ on CIFAR100 with a Resnet101,
$52.5\%$ on TinyImagenet with a Resnext50.
- Abstract(参考訳): 安価で信頼性が高く、転送可能なモデルを学びたいのであれば、コストが高く、うるさく、専門的なラベルは、教師なし学習に置き換えるべきです。
その目的のために、スペクトル埋め込み、自己教師付き学習、もしくは生成モデリングは競争力のあるソリューションを提供してきた。
これらの手法には、測地距離の推定、プロジェクタアーキテクチャの指定、反崩壊損失、デコーダアーキテクチャの指定、再構築損失など、多くの課題がある。
対照的に、ラベルのないデータから表現を学習するために、簡単な説明可能な代替手段 --textbf{DIET} を導入します。
お気に入りの分類設定を取り、 \textbf{D}atum \textbf{I}nd\textbf{E}x を \textbf{T}arget クラスとして使用する。
\textbf{DIET}はデコーダ/プロジェクタネットワークなしで動作し、肯定的なペアや再構成をベースとせず、ハイパーパラメータを導入せず、データセットやアーキテクチャをまたいだアウト・オブ・ボックスで動作する。
\textbf{DIET} の単純さにもかかわらず、学習された表現は高品質であり、DIET の学習された表現の上の線形分類器を使った最先端の \textit{e.g.} と同等であり、Resnet101 で CIFAR100 で 71.4\% 、Resnext50 で TinyImagenet で 52.5\% となる。
関連論文リスト
- $π^3$: Scalable Permutation-Equivariant Visual Geometry Learning [50.80418813055225]
$pi3$はフィードフォワードニューラルネットワークで、視覚的幾何学的再構成に対する新しいアプローチを提供する。
pi3$は、アフィン不変のカメラポーズとスケール不変のローカルポイントマップを予測するために、完全な置換同変アーキテクチャを使用している。
論文 参考訳(メタデータ) (2025-07-17T17:59:53Z) - Cut out and Replay: A Simple yet Versatile Strategy for Multi-Label Online Continual Learning [29.336056489694265]
マルチラベルオンライン連続学習(MOCL)は、無限のマルチラベルデータストリームから連続的に学習するモデルを必要とする。
そこで本稿では,ラベル特定領域の特定,強化,縮小により,詳細な監視信号を提供する戦略を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:40:31Z) - Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\ exttt{D}}$ual-$\mathbf{\ exttt{H}}$ead $\mathbf{\ exttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。
知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。
本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - Exemplar-Free Class Incremental Learning via Incremental Representation [26.759108983223115]
古い擬似機能を構築することなく, efCIL のためのtextbfsimple Incremental Representation (IR) フレームワークを提案する。
IRはデータセット拡張を利用して、適切な特徴空間をカバーし、単一のL2スペースメンテナンス損失を使用することでモデルを忘れないようにしている。
論文 参考訳(メタデータ) (2024-03-24T16:29:50Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - Unlearning via Sparse Representations [84.13849294580375]
本稿では,離散的な表現ボトルネックに基づく,ほぼ計算自由なゼロショットアンラーニング手法を提案する。
提案手法は,提案手法を効率的に学習し,他のデータセットにおけるモデルの性能に負のダメージを与えることを示す。
論文 参考訳(メタデータ) (2023-11-26T11:12:30Z) - SecureCut: Federated Gradient Boosting Decision Trees with Efficient
Machine Unlearning [10.011146979811752]
VFL(Vertical Federated Learning)では、複数のパーティがモデルトレーニングにプライベート機能を提供している。
VFLでは、データ削除(textitmachine unlearning)は、プライバシの保証の下で、すべてのサンプルから特定の機能を削除する必要があることが多い。
我々は,スクラッチから再トレーニングを必要とせずに,テクティスタンス・アンラーニングとテクティファチュア・アンラーニングの両方を効果的に実現する,新しいグラディエント・ブースティング・決定木(GBDT)フレームワークであるmethnameを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:38:53Z) - Improving Zero-Shot Generalization for CLIP with Synthesized Prompts [135.4317555866831]
既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T15:15:45Z) - Supervised Contrastive Prototype Learning: Augmentation Free Robust
Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。
我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。
同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。
私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文 参考訳(メタデータ) (2022-11-26T01:17:15Z) - $\alpha$ DARTS Once More: Enhancing Differentiable Architecture Search
by Masked Image Modeling [25.75814720792934]
微分可能なアーキテクチャサーチ(DARTS)は自動機械学習における主流の方向である。
パッチ回復アプローチを定式化し,意味情報を付加的に注入することを提案する。
CIFAR-10, CIFAR-100, ImageNet では, 従来の DARTS の変種を超越し, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-11-18T09:07:19Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Categorical Representation Learning: Morphism is All You Need [0.0]
分類表現学習のための構築と「$textitcategorifier$」の基礎について紹介する。
データセット内のすべてのオブジェクト$mathcals$は$textitencoding map$ $e: mathcalobj(mathcals)tomathbbrn$によって$mathbbrn$のベクトルとして表現できる。
概念実証として,我々の技術を搭載したテキスト翻訳者の例を示し,分類的学習モデルがそれを上回ることを示す。
論文 参考訳(メタデータ) (2021-03-26T23:47:15Z) - MAGNeto: An Efficient Deep Learning Method for the Extractive Tags
Summarization Problem [0.0]
抽出タグ要約(ETS)と呼ばれる新しい画像アノテーションタスクについて検討する。
ゴールは、画像とその対応するタグに横たわるコンテキストから重要なタグを抽出することである。
提案手法は,畳み込み層や自己注意層など,広く使用されているブロックで構成されている。
論文 参考訳(メタデータ) (2020-11-09T11:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。