論文の概要: Image Memorability Prediction with Vision Transformers
- arxiv url: http://arxiv.org/abs/2301.08647v1
- Date: Fri, 20 Jan 2023 15:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 13:02:49.440692
- Title: Image Memorability Prediction with Vision Transformers
- Title(参考訳): 視覚トランスフォーマによる画像記憶性予測
- Authors: Thomas Hagen, Thomas Espeseth
- Abstract要約: 視覚変換器(ViT)モデルは、画像の記憶可能性をより良く予測できる可能性がある。
本稿では,ViTに基づく新しい記憶可能性モデルであるViTMemについて述べる。
我々は、ViTMemが新たな一歩を踏み出し、ViT由来のモデルがCNNを置き換えることで、画像の記憶可能性の計算的予測を行うことができると結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral studies have shown that the memorability of images is similar
across groups of people, suggesting that memorability is a function of the
intrinsic properties of images, and is unrelated to people's individual
experiences and traits. Deep learning networks can be trained on such
properties and be used to predict memorability in new data sets. Convolutional
neural networks (CNN) have pioneered image memorability prediction, but more
recently developed vision transformer (ViT) models may have the potential to
yield even better predictions. In this paper, we present the ViTMem, a new
memorability model based on ViT, and evaluate memorability predictions obtained
by it with state-of-the-art CNN-derived models. Results showed that ViTMem
performed equal to or better than state-of-the-art models on all data sets.
Additional semantic level analyses revealed that ViTMem is particularly
sensitive to the semantic content that drives memorability in images. We
conclude that ViTMem provides a new step forward, and propose that ViT-derived
models can replace CNNs for computational prediction of image memorability.
Researchers, educators, advertisers, visual designers and other interested
parties can leverage the model to improve the memorability of their image
material.
- Abstract(参考訳): 行動研究では、画像の記憶力は人々のグループ間で類似しており、記憶力は画像の固有の特性の機能であり、個人の経験や特性とは無関係であることが示唆されている。
ディープラーニングネットワークはそのような特性に基づいてトレーニングし、新しいデータセットの記憶可能性を予測するために使用できる。
畳み込みニューラルネットワーク(cnn)は画像記憶可能性予測の先駆者となっているが、最近では視覚トランスフォーマー(vit)モデルも開発されている。
本稿では,vitに基づく新しい記憶可能性モデルである vitmem と,それに基づく記憶可能性予測を最新cnnモデルを用いて評価する。
その結果、ViTMemは全てのデータセットの最先端モデルと同等以上の性能を示した。
追加のセマンティックレベル分析により、ViTMemは画像の記憶可能性を促進するセマンティックコンテンツに特に敏感であることが判明した。
我々は、ViTMemが新たな一歩を踏み出し、ViT由来のモデルがCNNを置き換えることで、画像の記憶可能性の計算的予測を行うことができると結論付けた。
研究者、教育者、広告主、ビジュアルデザイナー、その他の関係者はこのモデルを利用して、画像素材の記憶力を向上させることができる。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review [1.0937094979510213]
画像分類領域における畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の比較分析について検討する。
我々のゴールは、電子商取引業界におけるファッションMNISTデータセットの画像を分類するためのViTとCNNの最も適切なアーキテクチャを決定することです。
論文 参考訳(メタデータ) (2024-06-05T17:32:22Z) - ViTamin: Designing Scalable Vision Models in the Vision-Language Era [26.878662961209997]
Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-04-02T17:40:29Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - V1T: large-scale mouse V1 response prediction using a Vision Transformer [1.5703073293718952]
動物間における視覚的・行動的表現の共有を学習するビジョントランスフォーマーに基づく新しいアーキテクチャであるV1Tを紹介する。
マウスの一次視覚野から記録された2つの大きなデータセットを用いて、我々のモデルを評価し、予測性能を12.7%以上向上させた。
論文 参考訳(メタデータ) (2023-02-06T18:58:38Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Embracing New Techniques in Deep Learning for Estimating Image
Memorability [0.0]
画像の記憶可能性を予測するための5つの代替ディープラーニングモデルを提案し,評価する。
以上の結果から,キーとなる記憶能力ネットワークは,その一般化性を過大評価し,トレーニングセットに過度に適合していたことが示唆された。
我々は、新しい最先端モデルを簡単に研究コミュニティに提供し、メモリ研究者がより広い範囲の画像で記憶可能性について予測できるようにしました。
論文 参考訳(メタデータ) (2021-05-21T23:05:23Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。