論文の概要: Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images
- arxiv url: http://arxiv.org/abs/2410.15235v2
- Date: Wed, 02 Apr 2025 05:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:16:21.002174
- Title: Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images
- Title(参考訳): オートエンコーダによる記憶可能画像の特性評価のモデル化
- Authors: Elham Bagheri, Yalda Mohsenzadeh,
- Abstract要約: 画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
人間の視覚知覚と記憶の理解の進歩にもかかわらず、画像の記憶可能性にどのような特徴が寄与するかは明らかになっていない。
我々は、VGG16畳み込みニューラルネットワーク(CNN)上に構築されたオートエンコーダベースのアプローチを用いて、画像の潜在表現を学習する。
- 参考スコア(独自算出の注目度): 2.4861619769660637
- License:
- Abstract: Image memorability refers to the phenomenon where certain images are more likely to be remembered than others. It is a quantifiable and intrinsic image attribute, defined as the likelihood of an image being remembered upon a single exposure. Despite advances in understanding human visual perception and memory, it is unclear what features contribute to an image's memorability. To address this question, we propose a deep learning-based computational modeling approach. We employ an autoencoder-based approach built on VGG16 convolutional neural networks (CNNs) to learn latent representations of images. The model is trained in a single-epoch setting, mirroring human memory experiments that assess recall after a single exposure. We examine the relationship between autoencoder reconstruction error and memorability, analyze the distinctiveness of latent space representations, and develop a multi-layer perceptron (MLP) model for memorability prediction. Additionally, we perform interpretability analysis using Integrated Gradients (IG) to identify the key visual characteristics that contribute to memorability. Our results demonstrate a significant correlation between the images' memorability score and the autoencoder's reconstruction error, as well as the robust predictive performance of its latent representations. Distinctiveness in these representations correlated significantly with memorability. Additionally, certain visual characteristics were identified as features contributing to image memorability in our model. These findings suggest that autoencoder-based representations capture fundamental aspects of image memorability, providing new insights into the computational modeling of human visual memory.
- Abstract(参考訳): 画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
これは量的・本質的な画像属性であり、単一の露光で画像が記憶される可能性として定義される。
人間の視覚知覚と記憶の理解の進歩にもかかわらず、画像の記憶可能性にどのような特徴が寄与するかは明らかになっていない。
そこで本研究では,ディープラーニングに基づく計算モデリング手法を提案する。
我々は、VGG16畳み込みニューラルネットワーク(CNN)上に構築されたオートエンコーダベースのアプローチを用いて、画像の潜在表現を学習する。
このモデルは、単一の露光後のリコールを評価する人間の記憶実験を反映した、単一のエポックな設定で訓練されている。
本稿では,自己エンコーダの再構成誤差と記憶可能性の関係について検討し,潜在空間表現の特異性を解析し,記憶可能性予測のための多層パーセプトロン(MLP)モデルを開発した。
さらに,インテグレート・グラディエント(IG)を用いた解釈可能性解析を行い,記憶可能性に寄与する重要な視覚的特徴を同定する。
以上の結果から,画像の記憶可能性スコアとオートエンコーダの復元誤差との間に有意な相関がみられた。
これらの表現の識別性は記憶可能性と大きく相関した。
さらに,画像の記憶可能性に寄与する特徴として,特定の視覚的特徴が同定された。
これらの結果は,オートエンコーダに基づく表現が画像記憶の基本的な側面を捉え,人間の視覚記憶の計算モデルに新たな洞察をもたらすことを示唆している。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文 参考訳(メタデータ) (2024-08-07T21:44:29Z) - Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability [21.355484227864466]
生成した画像の表現空間と入力空間の関係について検討する。
異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-17T07:33:06Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Associative Memories via Predictive Coding [37.59398215921529]
脳内の連想記憶は感覚ニューロンによって登録された活動パターンを受信し、記憶する。
本稿では,知覚ニューロンを介して外部刺激を受ける階層的生成ネットワークに基づいて,連想記憶を実現する新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2021-09-16T15:46:26Z) - Generating Memorable Images Based on Human Visual Memory Schemas [9.986390874391095]
本研究では,GAN(Generative Adversarial Networks)を用いて,記憶に残る場面や記憶できない場面の画像を生成することを提案する。
生成した画像の記憶性は、人間の観察者がイメージをメモリにエンコードするために使用する精神的表現に対応する視覚記憶(VMS)をモデル化することによって評価される。
論文 参考訳(メタデータ) (2020-05-06T17:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。