論文の概要: Learning More by Seeing Less: Line Drawing Pretraining for Efficient, Transferable, and Human-Aligned Vision
- arxiv url: http://arxiv.org/abs/2508.06696v1
- Date: Fri, 08 Aug 2025 20:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.513366
- Title: Learning More by Seeing Less: Line Drawing Pretraining for Efficient, Transferable, and Human-Aligned Vision
- Title(参考訳): 少ない視力でより多くを学ぶ:効率よく、伝達可能で、人間に適応した視力のための線引き事前学習
- Authors: Tianqin Li, George Liu, Tai Sing Lee,
- Abstract要約: 本稿では,よりコンパクトで一般化可能な視覚表現を誘導するために,ライン描画を構造第一事前学習モードとして用いることを提案する。
線図上に事前訓練されたモデルは、より強い形状バイアス、より集中した注意力、データ効率を向上させる。
ラインプレトレーニングされた教師から蒸留された学生は、着色教師の訓練を受けた教師よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 6.047146237332764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable progress in computer vision, modern recognition systems remain limited by their dependence on rich, redundant visual inputs. In contrast, humans can effortlessly understand sparse, minimal representations like line drawings - suggesting that structure, rather than appearance, underlies efficient visual understanding. In this work, we propose using line drawings as a structure-first pretraining modality to induce more compact and generalizable visual representations. We show that models pretrained on line drawings develop stronger shape bias, more focused attention, and greater data efficiency across classification, detection, and segmentation tasks. Notably, these models also exhibit lower intrinsic dimensionality, requiring significantly fewer principal components to capture representational variance - echoing the similar observation in low dimensional efficient representation in the brain. Beyond performance improvements, line drawing pretraining produces more compressible representations, enabling better distillation into lightweight student models. Students distilled from line-pretrained teachers consistently outperform those trained from color-supervised teachers, highlighting the benefits of structurally compact knowledge. Finally, we demonstrate that the pretraining with line-drawing can also be extended to unsupervised setting via our proposed method "learning to draw". Together, our results support the view that structure-first visual learning fosters efficiency, generalization, and human-aligned inductive biases - offering a simple yet powerful strategy for building more robust and adaptable vision systems.
- Abstract(参考訳): コンピュータビジョンの顕著な進歩にもかかわらず、現代の認識システムは、リッチで冗長な視覚入力への依存によって制限されている。
対照的に、人間はラインドローイングのようなスパースで最小限の表現を熱心に理解することができる。
本研究では,よりコンパクトで一般化可能な視覚表現を誘導するために,ライン描画を構造第一事前学習モードとして用いることを提案する。
線図上に事前訓練されたモデルは、より強力な形状バイアス、より焦点を絞った注意、分類、検出、セグメンテーションタスク全体にわたるデータ効率を高めることが示される。
特に、これらのモデルは内在的な次元も低く、表現のばらつきを捉えるために主成分を著しく少なくする必要があり、脳内の低次元の効率的な表現において同様の観察を反映している。
性能の改善に加えて、ラインドローイング事前訓練はより圧縮可能な表現を生み出し、軽量の学生モデルへのより良い蒸留を可能にした。
ラインプレトレーニングされた教師から蒸留された学生は、着色教師の訓練を受けた教師よりも一貫して優れており、構造的にコンパクトな知識の利点を強調している。
最後に,線引きによる事前学習を,提案手法を用いて教師なしの設定まで拡張できることを実証した。
私たちの結果は、構造優先の視覚学習が効率性、一般化、人間指向の帰納的バイアスを促進するという、より堅牢で適応可能な視覚システムを構築するためのシンプルで強力な戦略を提供する、という見解を支持します。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Latent Augmentation For Better Graph Self-Supervised Learning [20.082614919182692]
我々は、潜在的な拡張と強力なデコーダを備えた予測モデルは、対照的なモデルよりも同等またはそれ以上の表現力を達成することができると論じている。
Wiener Graph Deconvolutional Networkと呼ばれる新しいグラフデコーダは、拡張潜在表現から情報再構成を行うように設計されている。
論文 参考訳(メタデータ) (2022-06-26T17:41:59Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。