論文の概要: Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision
- arxiv url: http://arxiv.org/abs/2412.20761v3
- Date: Tue, 20 May 2025 06:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.648869
- Title: Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision
- Title(参考訳): 忘れられない画像からの教訓:コンピュータビジョンにおけるクラス内記憶可能性
- Authors: Jie Jing, Qing Lin, Shuangpeng Han, Lucia Schiatti, Yen-Ling Kuo, Mengmi Zhang,
- Abstract要約: クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。
画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。
Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
- 参考スコア(独自算出の注目度): 8.210681499876216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce intra-class memorability, where certain images within the same class are more memorable than others despite shared category characteristics. To investigate what features make one object instance more memorable than others, we design and conduct human behavior experiments, where participants are shown a series of images, and they must identify when the current image matches the image presented a few steps back in the sequence. To quantify memorability, we propose the Intra-Class Memorability score (ICMscore), a novel metric that incorporates the temporal intervals between repeated image presentations into its calculation. Furthermore, we curate the Intra-Class Memorability Dataset (ICMD), comprising over 5,000 images across ten object classes with their ICMscores derived from 2,000 participants' responses. Subsequently, we demonstrate the usefulness of ICMD by training AI models on this dataset for various downstream tasks: memorability prediction, image recognition, continual learning, and memorability-controlled image editing. Surprisingly, high-ICMscore images impair AI performance in image recognition and continual learning tasks, while low-ICMscore images improve outcomes in these tasks. Additionally, we fine-tune a state-of-the-art image diffusion model on ICMD image pairs with and without masked semantic objects. The diffusion model can successfully manipulate image elements to enhance or reduce memorability. Our contributions open new pathways in understanding intra-class memorability by scrutinizing fine-grained visual features behind the most and least memorable images and laying the groundwork for real-world applications in computer vision. We will release all code, data, and models publicly.
- Abstract(参考訳): 同一クラス内の画像は,共有カテゴリの特徴にもかかわらず,他のクラスよりも記憶力が高いクラス内記憶性を導入する。
1つのオブジェクトインスタンスが他のオブジェクトインスタンスよりも記憶しやすいかを調べるために、参加者が一連の画像を表示するような人間の行動実験を設計し、実施する。
記憶可能性の定量化のために,繰り返し画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscoreを提案する。
さらに,2000人の参加者の回答から得られたICMスコアを用いて,10のクラスに5,000以上の画像を含むICMD(Intra-Class Memorability Dataset)をキュレートした。
その後、記憶可能性予測、画像認識、連続学習、記憶可能性制御画像編集など、様々な下流タスクのために、このデータセット上でAIモデルをトレーニングすることで、ICMDの有用性を実証する。
驚くべきことに、ハイICMscoreイメージは画像認識や連続的な学習タスクにおいてAIのパフォーマンスを損なう一方で、低ICMscoreイメージはこれらのタスクの結果を改善する。
さらに,ICMD画像対とマスク付きセマンティックオブジェクトを伴わずに,最先端の画像拡散モデルを微調整する。
拡散モデルは画像要素の操作に成功し、記憶性を高めたり低下させたりすることができる。
我々の貢献は、最も記憶しにくい画像の背後にあるきめ細かい視覚的特徴を精査し、コンピュータビジョンにおける現実世界の応用の基盤となることで、クラス内の記憶可能性を理解するための新しい経路を開く。
すべてのコード、データ、モデルを公開します。
関連論文リスト
- Multi-Grained Compositional Visual Clue Learning for Image Intent Recognition [14.435031094457026]
我々は、画像意図認識におけるこれらの課題に対処するために、MCCL(Multi-fine compositional visual Clue Learning)という新しいアプローチを導入する。
本手法は,意図認識を視覚的手がかり合成に分解し,多粒な特徴を統合することで,人間の認知の体系的構成性を活用する。
我々は、グラフ畳み込みネットワークを用いて、ラベル埋め込み相関を通じて事前知識を注入し、意図認識を多ラベル分類問題として扱う。
論文 参考訳(メタデータ) (2025-04-25T09:31:03Z) - Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
VGG16畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダを用いた視覚記憶の主観的体験をモデル化した。
我々は,記憶可能性と復元誤差の関係について検討し,空間表現の特異性を評価するとともに,記憶可能性の予測を目的としたGRUモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - PETA: Photo Albums Event Recognition using Transformers Attention [10.855070748535688]
個人写真アルバムにおけるイベント認識は、ハイレベルな画像理解の課題を示す。
画像表現のためのCNNと、アルバム表現のためのトランスフォーマーのパワーを融合した、テーラーメイドのソリューションを提案する。
我々のソリューションは3つの顕著なベンチマークで最先端の結果に達し、すべてのデータセットで90%以上のmAPを達成した。
論文 参考訳(メタデータ) (2021-09-26T05:23:24Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - Memorability: An image-computable measure of information utility [21.920488962633218]
本章では画像記憶可能性を正確に予測する最先端アルゴリズムについて詳述する。
本稿では,顔,物体,シーン記憶のためのアルゴリズムの設計と可視化について論じる。
我々は最近のA.I.を示す。
アプローチは、視覚的な記憶力の作成と修正に使用できる。
論文 参考訳(メタデータ) (2021-04-01T23:38:30Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。