論文の概要: Can deep learning match the efficiency of human visual long-term memory
to store object details?
- arxiv url: http://arxiv.org/abs/2204.13061v1
- Date: Wed, 27 Apr 2022 17:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:44:07.930123
- Title: Can deep learning match the efficiency of human visual long-term memory
to store object details?
- Title(参考訳): 深層学習は人間の視覚的長期記憶の効率と一致してオブジェクトの詳細を保存できるのか?
- Authors: A. Emin Orhan
- Abstract要約: 人間は長期記憶に詳細な視覚情報を格納する能力が著しく高い。
本稿では,人間の視覚的長期記憶の効率に,勾配降下による深層学習が適合するかどうかを問う。
- 参考スコア(独自算出の注目度): 21.067139116005592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have a remarkably large capacity to store detailed visual information
in long-term memory even after a single exposure, as demonstrated by classic
experiments in psychology. For example, Standing (1973) showed that humans
could recognize with high accuracy thousands of pictures that they had seen
only once a few days prior to a recognition test. In deep learning, the primary
mode of incorporating new information into a model is through gradient descent
in the model's parameter space. This paper asks whether deep learning via
gradient descent can match the efficiency of human visual long-term memory to
incorporate new information in a rigorous, head-to-head, quantitative
comparison. We answer this in the negative: even in the best case, models
learning via gradient descent appear to require approximately 10 exposures to
the same visual materials in order to reach a recognition memory performance
humans achieve after only a single exposure. Prior knowledge induced via
pretraining and bigger model sizes improve performance, but these improvements
are not very visible after a single exposure (it takes a few exposures for the
improvements to become apparent), suggesting that simply scaling up the
pretraining data size or model size might not be enough for the model to reach
human-level memory efficiency.
- Abstract(参考訳): 心理学の古典的な実験で実証されたように、人間は単一の露出後も、詳細な視覚情報を長期記憶に保存する能力が非常に大きい。
例えば、Standing (1973) は、人間が認識テストの数日前に一度だけ見た何千もの写真を高精度に認識できることを示した。
ディープラーニングでは、モデルに新しい情報を組み込む主要な方法は、モデルのパラメータ空間における勾配降下である。
本稿では,人間の視覚的長期記憶の効率と勾配勾配による深層学習が一致し,より厳密な定量的比較に新たな情報を組み込むことができるかどうかを問う。
最良の場合であっても、勾配降下による学習モデルでは、人間がたった1回の露出で達成した認識メモリ性能に到達するために、同じ視覚材料に約10の露出を必要とするように見える。
事前トレーニングとより大きなモデルサイズによって引き起こされる事前知識はパフォーマンスを向上させるが、これらの改善は1回の露光であまり目立たない(改善が明らかになるにはいくつかの露出が必要)ため、事前トレーニングデータサイズやモデルサイズをスケールアップするだけでは、モデルが人間のレベルのメモリ効率に達するには不十分である可能性がある。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - Recognition, recall, and retention of few-shot memories in large
language models [21.067139116005592]
本研究では,大規模言語モデルを用いた単純な認識,リコール,保持実験について検討する。
単一の露光は、モデルがほぼ完全な精度を達成するのに一般的に十分であることがわかった。
高速学習におけるこの驚くべき能力の対極は、正確な記憶がすぐに上書きされることです。
論文 参考訳(メタデータ) (2023-03-30T17:26:16Z) - Gestalt-Guided Image Understanding for Few-Shot Learning [19.83265038667386]
本稿では,ゲシュタルト心理学を数ショット学習に適用し,GGIUと呼ばれるプラグアンドプレイ手法を提案する。
画像特徴抽出のためのトータルティガイド画像理解とクロージャガイド画像理解を設計する。
提案手法は,既存のモデルの性能をトレーニングや微調整なしに効果的かつ柔軟に向上させることができる。
論文 参考訳(メタデータ) (2023-02-08T07:39:18Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。