論文の概要: Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision
- arxiv url: http://arxiv.org/abs/2412.20761v3
- Date: Tue, 20 May 2025 06:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.648869
- Title: Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision
- Title(参考訳): 忘れられない画像からの教訓:コンピュータビジョンにおけるクラス内記憶可能性
- Authors: Jie Jing, Qing Lin, Shuangpeng Han, Lucia Schiatti, Yen-Ling Kuo, Mengmi Zhang,
- Abstract要約: クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。
画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。
Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
- 参考スコア(独自算出の注目度): 8.210681499876216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce intra-class memorability, where certain images within the same class are more memorable than others despite shared category characteristics. To investigate what features make one object instance more memorable than others, we design and conduct human behavior experiments, where participants are shown a series of images, and they must identify when the current image matches the image presented a few steps back in the sequence. To quantify memorability, we propose the Intra-Class Memorability score (ICMscore), a novel metric that incorporates the temporal intervals between repeated image presentations into its calculation. Furthermore, we curate the Intra-Class Memorability Dataset (ICMD), comprising over 5,000 images across ten object classes with their ICMscores derived from 2,000 participants' responses. Subsequently, we demonstrate the usefulness of ICMD by training AI models on this dataset for various downstream tasks: memorability prediction, image recognition, continual learning, and memorability-controlled image editing. Surprisingly, high-ICMscore images impair AI performance in image recognition and continual learning tasks, while low-ICMscore images improve outcomes in these tasks. Additionally, we fine-tune a state-of-the-art image diffusion model on ICMD image pairs with and without masked semantic objects. The diffusion model can successfully manipulate image elements to enhance or reduce memorability. Our contributions open new pathways in understanding intra-class memorability by scrutinizing fine-grained visual features behind the most and least memorable images and laying the groundwork for real-world applications in computer vision. We will release all code, data, and models publicly.
- Abstract(参考訳): 同一クラス内の画像は,共有カテゴリの特徴にもかかわらず,他のクラスよりも記憶力が高いクラス内記憶性を導入する。
1つのオブジェクトインスタンスが他のオブジェクトインスタンスよりも記憶しやすいかを調べるために、参加者が一連の画像を表示するような人間の行動実験を設計し、実施する。
記憶可能性の定量化のために,繰り返し画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscoreを提案する。
さらに,2000人の参加者の回答から得られたICMスコアを用いて,10のクラスに5,000以上の画像を含むICMD(Intra-Class Memorability Dataset)をキュレートした。
その後、記憶可能性予測、画像認識、連続学習、記憶可能性制御画像編集など、様々な下流タスクのために、このデータセット上でAIモデルをトレーニングすることで、ICMDの有用性を実証する。
驚くべきことに、ハイICMscoreイメージは画像認識や連続的な学習タスクにおいてAIのパフォーマンスを損なう一方で、低ICMscoreイメージはこれらのタスクの結果を改善する。
さらに,ICMD画像対とマスク付きセマンティックオブジェクトを伴わずに,最先端の画像拡散モデルを微調整する。
拡散モデルは画像要素の操作に成功し、記憶性を高めたり低下させたりすることができる。
我々の貢献は、最も記憶しにくい画像の背後にあるきめ細かい視覚的特徴を精査し、コンピュータビジョンにおける現実世界の応用の基盤となることで、クラス内の記憶可能性を理解するための新しい経路を開く。
すべてのコード、データ、モデルを公開します。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Multi-Grained Compositional Visual Clue Learning for Image Intent Recognition [14.435031094457026]
我々は、画像意図認識におけるこれらの課題に対処するために、MCCL(Multi-fine compositional visual Clue Learning)という新しいアプローチを導入する。
本手法は,意図認識を視覚的手がかり合成に分解し,多粒な特徴を統合することで,人間の認知の体系的構成性を活用する。
我々は、グラフ畳み込みネットワークを用いて、ラベル埋め込み相関を通じて事前知識を注入し、意図認識を多ラベル分類問題として扱う。
論文 参考訳(メタデータ) (2025-04-25T09:31:03Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
VGG16畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダを用いた視覚記憶の主観的体験をモデル化した。
我々は,記憶可能性と復元誤差の関係について検討し,空間表現の特異性を評価するとともに,記憶可能性の予測を目的としたGRUモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - PETA: Photo Albums Event Recognition using Transformers Attention [10.855070748535688]
個人写真アルバムにおけるイベント認識は、ハイレベルな画像理解の課題を示す。
画像表現のためのCNNと、アルバム表現のためのトランスフォーマーのパワーを融合した、テーラーメイドのソリューションを提案する。
我々のソリューションは3つの顕著なベンチマークで最先端の結果に達し、すべてのデータセットで90%以上のmAPを達成した。
論文 参考訳(メタデータ) (2021-09-26T05:23:24Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - Memorability: An image-computable measure of information utility [21.920488962633218]
本章では画像記憶可能性を正確に予測する最先端アルゴリズムについて詳述する。
本稿では,顔,物体,シーン記憶のためのアルゴリズムの設計と可視化について論じる。
我々は最近のA.I.を示す。
アプローチは、視覚的な記憶力の作成と修正に使用できる。
論文 参考訳(メタデータ) (2021-04-01T23:38:30Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。