論文の概要: Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment
- arxiv url: http://arxiv.org/abs/2505.14204v1
- Date: Tue, 20 May 2025 11:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.083128
- Title: Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment
- Title(参考訳): 視覚初期化は視覚言語表現とアライメントを改善する
- Authors: Yang Hu, Runchen Wang, Stephen Chong Zhao, Xuhui Zhan, Do Hun Kim, Mark Wallace, David A. Tovar,
- Abstract要約: 視覚表現学習におけるパラダイムシフトである知覚初期化(PI)を導入する。
提案手法は,タスク固有の微調整を使わずに,ゼロショット性能が大幅に向上したことを示す。
私たちの研究は、人間の知覚から始まる「あなたとの交際」が、汎用的な視覚言語知能の強力な基盤を提供することを示している。
- 参考スコア(独自算出の注目度): 2.3735961220736423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Perceptual-Initialization (PI), a paradigm shift in visual representation learning that incorporates human perceptual structure during the initialization phase rather than as a downstream fine-tuning step. By integrating human-derived triplet embeddings from the NIGHTS dataset to initialize a CLIP vision encoder, followed by self-supervised learning on YFCC15M, our approach demonstrates significant zero-shot performance improvements, without any task-specific fine-tuning, across 29 zero shot classification and 2 retrieval benchmarks. On ImageNet-1K, zero-shot gains emerge after approximately 15 epochs of pretraining. Benefits are observed across datasets of various scales, with improvements manifesting at different stages of the pretraining process depending on dataset characteristics. Our approach consistently enhances zero-shot top-1 accuracy, top-5 accuracy, and retrieval recall (e.g., R@1, R@5) across these diverse evaluation tasks, without requiring any adaptation to target domains. These findings challenge the conventional wisdom of using human-perceptual data primarily for fine-tuning and demonstrate that embedding human perceptual structure during early representation learning yields more capable and vision-language aligned systems that generalize immediately to unseen tasks. Our work shows that "beginning with you", starting with human perception, provides a stronger foundation for general-purpose vision-language intelligence.
- Abstract(参考訳): 本稿では,視覚表現学習におけるパラダイムシフトである知覚初期化(PI)を導入する。
NIGHTSデータセットからの人間由来のトリプルト埋め込みを統合し、CLIPビジョンエンコーダを初期化し、YFCC15Mで自己教師付き学習を行うことで、29のゼロショット分類と2の検索ベンチマークでタスク固有の微調整を行わずに、大幅なゼロショット性能の改善が示される。
ImageNet-1Kでは、事前トレーニングの約15時間後にゼロショットゲインが出現する。
メリットはさまざまなスケールのデータセットにまたがって観測され、データセットの特性に応じて事前学習プロセスの異なる段階で改善が示される。
提案手法は, 対象領域への適応を必要とせず, ゼロショットトップ1精度, トップ5精度, 検索リコール(例えば, R@1, R@5)を連続的に向上させる。
これらの知見は、主に微調整のために人間の知覚データを使用するという従来の知恵に挑戦し、初期の表現学習中に人間の知覚構造を埋め込むことにより、より有能で視覚言語に整合したシステムが、すぐに見えないタスクに一般化されることを示す。
私たちの研究は、人間の知覚から始まる「あなたとの交際」が、汎用的な視覚言語知能の強力な基盤を提供することを示している。
関連論文リスト
- UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。
我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。
本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文 参考訳(メタデータ) (2024-12-21T19:01:57Z) - No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。