論文の概要: Perceptual Inductive Bias Is What You Need Before Contrastive Learning
- arxiv url: http://arxiv.org/abs/2506.01201v1
- Date: Sun, 01 Jun 2025 22:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.987725
- Title: Perceptual Inductive Bias Is What You Need Before Contrastive Learning
- Title(参考訳): 知覚的インダクティブバイアスは、コントラスト学習に必要なのは何か
- Authors: Tianqin Li, Junru Zhao, Dunhan Jiang, Shenghao Wu, Alan Ramirez, Tai Sing Lee,
- Abstract要約: デビッド・マーの人間知覚の理論は、視覚処理は多段階の過程であると定めている。
対照的表現学習フレームワークは典型的にこの明示的な多段階的アプローチを回避し、目的をオブジェクトの意味表現空間の直接学習として定義する。
本稿では,Marr の多段階理論を利用する場合,ResNet18 上での知覚的コンバージェンスによる境界表現と表面表現を2倍に高速化することを示した。
- 参考スコア(独自算出の注目度): 5.293464312554111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: David Marr's seminal theory of human perception stipulates that visual processing is a multi-stage process, prioritizing the derivation of boundary and surface properties before forming semantic object representations. In contrast, contrastive representation learning frameworks typically bypass this explicit multi-stage approach, defining their objective as the direct learning of a semantic representation space for objects. While effective in general contexts, this approach sacrifices the inductive biases of vision, leading to slower convergence speed and learning shortcut resulting in texture bias. In this work, we demonstrate that leveraging Marr's multi-stage theory-by first constructing boundary and surface-level representations using perceptual constructs from early visual processing stages and subsequently training for object semantics-leads to 2x faster convergence on ResNet18, improved final representations on semantic segmentation, depth estimation, and object recognition, and enhanced robustness and out-of-distribution capability. Together, we propose a pretraining stage before the general contrastive representation pretraining to further enhance the final representation quality and reduce the overall convergence time via inductive bias from human vision systems.
- Abstract(参考訳): デイヴィッド・マーの人間の知覚に関する神学的理論は、視覚処理は多段階的なプロセスであり、セマンティックオブジェクト表現を形成する前に境界と表面特性の導出を優先することを規定している。
対照的に、対照的な表現学習フレームワークは典型的にこの明示的な多段階的アプローチを回避し、目的をオブジェクトの意味表現空間の直接学習として定義する。
一般的な文脈では有効であるが、このアプローチは視覚の誘導バイアスを犠牲にし、収束速度と学習ショートカットを遅くし、テクスチャバイアスをもたらす。
本研究では,初期視覚処理段階からの知覚的構成を用いてMarrの多段階理論を初めて構築し,その後ResNet18上でオブジェクトセマンティクスを2倍高速収束させる訓練を行い,セマンティクスのセグメンテーション,深さ推定,オブジェクト認識に関する最終表現を改善し,ロバスティビティとアウト・オブ・ディストリビューション能力の向上を図った。
そこで本研究では,人間の視覚系からの帰納的バイアスにより,最終的な表現品質をさらに向上させ,全体の収束時間を短縮する,一般的なコントラスト表現事前訓練前の事前訓練ステージを提案する。
関連論文リスト
- Understanding the behavior of representation forgetting in continual learning [12.769918589649299]
継続的な学習シナリオでは、以前に学んだタスクの破滅的な忘れ忘れが重要な問題である。
本稿では,表現を忘れることに関する最初の理論的分析を行い,この分析を用いて連続学習の振る舞いをよりよく理解する。
論文 参考訳(メタデータ) (2025-05-27T10:04:00Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。