論文の概要: Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
- arxiv url: http://arxiv.org/abs/2312.02843v1
- Date: Tue, 5 Dec 2023 15:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-06 15:23:48.391367
- Title: Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
- Title(参考訳): ヴィジュアルトランスフォーマーは生まれたばかりのビジュアルシステムよりもつらいか?
- Authors: Lalit Pandey, Samantha M. W. Wood, Justin N. Wood
- Abstract要約: ビジョントランス (ViT) は、多くのコンピュータビジョンベンチマークにおいて最高性能のモデルである。
ViTは脳よりも飢えているデータであると考えられており、ViTは同様のレベルのパフォーマンスに到達するために、より多くのトレーニングデータを必要としている。
我々は、ViTと新生ニワトリの学習能力を直接比較し、ViTと新生ニワトリの並列制御飼育実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Vision transformers (ViTs) are top performing models on many computer vision
benchmarks and can accurately predict human behavior on object recognition
tasks. However, researchers question the value of using ViTs as models of
biological learning because ViTs are thought to be more data hungry than
brains, with ViTs requiring more training data to reach similar levels of
performance. To test this assumption, we directly compared the learning
abilities of ViTs and animals, by performing parallel controlled rearing
experiments on ViTs and newborn chicks. We first raised chicks in impoverished
visual environments containing a single object, then simulated the training
data available in those environments by building virtual animal chambers in a
video game engine. We recorded the first-person images acquired by agents
moving through the virtual chambers and used those images to train self
supervised ViTs that leverage time as a teaching signal, akin to biological
visual systems. When ViTs were trained through the eyes of newborn chicks, the
ViTs solved the same view invariant object recognition tasks as the chicks.
Thus, ViTs were not more data hungry than newborn visual systems: both learned
view invariant object representations in impoverished visual environments. The
flexible and generic attention based learning mechanism in ViTs combined with
the embodied data streams available to newborn animals appears sufficient to
drive the development of animal-like object recognition.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は多くのコンピュータビジョンベンチマークでトップパフォーマンスモデルであり、オブジェクト認識タスクにおける人間の行動を正確に予測することができる。
しかし、ViTsを生物学的学習のモデルとして使う価値は、ViTsは脳よりも飢えたデータであると考えられており、ViTsは同様のレベルのパフォーマンスに達するためにより多くのトレーニングデータを必要としているため、疑問が持たれている。
この仮定を検証するために、我々はViTと新生ニワトリの学習能力を直接比較し、ViTと新生ニワトリの並列制御飼育実験を行った。
まず,1つの物体を含む視覚環境においてヒナを育て,仮想動物室をゲームエンジンに組み込むことで,それらの環境で利用可能なトレーニングデータをシミュレートした。
仮想空間を移動するエージェントが取得した1人目の画像を記録し、生体視覚システムと同様の時間を利用した自己監督型ViTの訓練に使用した。
ViTが生まれたばかりのニワトリの目を通して訓練されたとき、ViTはニワトリと同じ、不変の物体認識タスクを解決した。
このように、ViTは生まれたばかりの視覚システムよりも、データに飢えていた:どちらも、貧弱な視覚環境における不変のオブジェクト表現を学習した。
ViTsのフレキシブルで汎用的な注意に基づく学習メカニズムは、新生児に利用可能なデータストリームと組み合わせることで、動物のような物体認識の開発を促進するのに十分である。
関連論文リスト
- ViSpeak: Visual Instruction Feedback in Streaming Videos [50.99067964073338]
本稿では,視覚的インストラクションフィードバック(Visual Instruction Feedback)という新しいタスクを提案する。
我々は,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。
論文 参考訳(メタデータ) (2025-03-17T03:05:31Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - A newborn embodied Turing test for view-invariant object recognition [0.0]
我々は、新生児の動物や機械を同じ環境で育て、同じタスクでテストできる「新生児体化チューリングテスト」を提案する。
このプラットフォームを構築するために、私たちはまず生まれたばかりのニワトリから制御可能なデータを収集し、次に、ニワトリの飼育条件を模倣する仮想環境で機械が育てられる「デジタルツイン」実験を行った。
論文 参考訳(メタデータ) (2023-06-08T22:46:31Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。