論文の概要: Traces of Image Memorability in Vision Encoders: Activations, Attention Distributions and Autoencoder Losses
- arxiv url: http://arxiv.org/abs/2509.01453v1
- Date: Mon, 01 Sep 2025 13:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.709893
- Title: Traces of Image Memorability in Vision Encoders: Activations, Attention Distributions and Autoencoder Losses
- Title(参考訳): ビジョンエンコーダにおける画像記憶可能性のトレース--アクティベーション,アテンション分布,オートエンコーダ損失
- Authors: Ece Takmaz, Albert Gatt, Jakub Dotlacil,
- Abstract要約: 本稿では,事前学習した視覚エンコーダにおける画像記憶可能性の相関について検討する。
これらの特徴が記憶可能性とある程度の相関があることが分かりました。
結果は、モデル内部の特徴と記憶可能性の関係に光を当てた。
- 参考スコア(独自算出の注目度): 5.369009163979958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Images vary in how memorable they are to humans. Inspired by findings from cognitive science and computer vision, this paper explores the correlates of image memorability in pretrained vision encoders, focusing on latent activations, attention distributions, and the uniformity of image patches. We find that these features correlate with memorability to some extent. Additionally, we explore sparse autoencoder loss over the representations of vision transformers as a proxy for memorability, which yields results outperforming past methods using convolutional neural network representations. Our results shed light on the relationship between model-internal features and memorability. They show that some features are informative predictors of what makes images memorable to humans.
- Abstract(参考訳): 画像は、人間に対する記憶力の程度によって異なる。
認知科学とコンピュータビジョンの知見から着想を得た本研究では,事前学習した視覚エンコーダにおける画像記憶可能性の相関について検討し,潜時活性化,注意分布,画像パッチの均一性に着目した。
これらの特徴が記憶可能性とある程度の相関があることが分かりました。
さらに,視覚変換器の表現に対するスパースオートエンコーダの損失を記憶可能性のプロキシとして検討し,畳み込みニューラルネットワーク表現を用いた過去の手法よりも優れた結果が得られることを示した。
その結果、モデル内部の特徴と記憶可能性の関係が明らかになった。
それらの特徴は、画像が人間にとって記憶可能なものとなることの、情報的な予測であることを示している。
関連論文リスト
- From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images [1.77513002450736]
網膜-V1大脳皮質のいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャであるPerceptNetは、画像再構成に関連するさまざまなタスクにエンドツーエンドで最適化されている。
以上の結果から,エンコーダの段階は画像歪みに対する人間の知覚的判断と一貫した相関を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-14T08:37:30Z) - Sensitive Image Classification by Vision Transformers [1.9598097298813262]
ビジョントランスモデルは自己認識機構を利用して、文脈的局所要素間のグローバルな相互作用をキャプチャする。
本研究では,様々な視覚変換器モデルと従来のトレーニング済みResNetモデルの比較分析を行った。
その結果、ビジョントランスフォーマーネットワークは、事前訓練されたベンチマークモデルを超え、優れた分類と検出能力を示した。
論文 参考訳(メタデータ) (2024-12-21T02:34:24Z) - Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
人間の視覚知覚と記憶の理解の進歩にもかかわらず、画像の記憶可能性にどのような特徴が寄与するかは明らかになっていない。
我々は、VGG16畳み込みニューラルネットワーク(CNN)上に構築されたオートエンコーダベースのアプローチを用いて、画像の潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。