論文の概要: Separating Knowledge and Perception with Procedural Data
- arxiv url: http://arxiv.org/abs/2508.11697v1
- Date: Tue, 12 Aug 2025 19:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.274518
- Title: Separating Knowledge and Perception with Procedural Data
- Title(参考訳): 手続きデータによる知識と知覚の分離
- Authors: Adrián Rodríguez-Muñoz, Manel Baradad, Phillip Isola, Antonio Torralba,
- Abstract要約: 手続きデータのみを用いて表現モデルを訓練し、さらに訓練することなく視覚的類似性、分類、意味的セグメンテーションタスクに適用する。
視覚記憶に関する従来の研究とは違って,本手法は実世界のすべての画像に対して完全なコンパートナライズを実現する。
- 参考スコア(独自算出の注目度): 57.462522700631276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train representation models with procedural data only, and apply them on visual similarity, classification, and semantic segmentation tasks without further training by using visual memory -- an explicit database of reference image embeddings. Unlike prior work on visual memory, our approach achieves full compartmentalization with respect to all real-world images while retaining strong performance. Compared to a model trained on Places, our procedural model performs within $1\%$ on NIGHTS visual similarity, outperforms by $8\%$ and $15\%$ on CUB200 and Flowers102 fine-grained classification, and is within $10\%$ on ImageNet-1K classification. It also demonstrates strong zero-shot segmentation, achieving an $R^2$ on COCO within $10\%$ of the models trained on real data. Finally, we analyze procedural versus real data models, showing that parts of the same object have dissimilar representations in procedural models, resulting in incorrect searches in memory and explaining the remaining performance gap.
- Abstract(参考訳): プロシージャデータのみを用いた表現モデルをトレーニングし、ビジュアルメモリ(参照画像埋め込みの明示的なデータベース)を使用して、さらにトレーニングすることなく、視覚的類似性、分類、セマンティックセグメンテーションタスクに適用する。
視覚記憶に関する従来の研究とは違い,本手法は実世界のすべての画像に対して,高い性能を維持しつつ,完全なコンパートナライズを実現している。
Placesでトレーニングされたモデルと比較して、我々の手続きモデルは、NIGHTSの視覚的類似度で1\%以内、CUB200とFlowers102のきめ細かい分類で8\%と15\%を上回り、ImageNet-1Kの分類では10\%以下である。
また、強力なゼロショットセグメンテーションを示し、実際のデータでトレーニングされたモデルの10\%以内にCOCO上でR^2$を達成している。
最後に、プロシージャモデルと実データモデルを分析し、同じオブジェクトの一部がプロシージャモデルで異なる表現を持つことを示す。
関連論文リスト
- DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [51.439283251703635]
計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。
DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。
異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - Sanity checks and improvements for patch visualisation in
prototype-based image classification [0.0]
プロトタイプに基づく視覚分類のための2つの一般的な自己説明モデルに実装された視覚的手法の詳細な分析を行う。
まず、そのような手法は画像内の関心領域を正確に識別せず、従ってモデル動作を反映しないことを示す。
我々は,同じ可視化手法を共有する他のプロトタイプベースモデルに対して,本研究がもたらす意味について論じる。
論文 参考訳(メタデータ) (2023-01-20T15:13:04Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。