論文の概要: From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
- arxiv url: http://arxiv.org/abs/2511.22805v1
- Date: Thu, 27 Nov 2025 23:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.729172
- Title: From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
- Title(参考訳): カメラからフィーリングへ:人間の認知的知覚によるMLLMの調整
- Authors: Yiming Chen, Junlin Han, Tianyi Bai, Shengbang Tong, Filippos Kokkinos, Philip Torr,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像の識別対象に何があるのかを答える能力を持っているが、人間の観察者に対してイメージがどのように感じるかを理解する能力に欠けることが多い。
このギャップは、イメージを記憶しやすく、面白く、審美的に喜ばせ、感情的に刺激的になるような、主観的な認知特性を考える際に最も顕著である。
画像認識特性のMLLMを評価するための総合的なベンチマークであるCogIP-Benchを紹介する。
- 参考スコア(独自算出の注目度): 36.44183173680125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) are adept at answering what is in an image-identifying objects and describing scenes-they often lack the ability to understand how an image feels to a human observer. This gap is most evident when considering subjective cognitive properties, such as what makes an image memorable, funny, aesthetically pleasing, or emotionally evocative. To systematically address this challenge, we introduce CogIP-Bench, a comprehensive benchmark for evaluating MLLMs on such image cognitive properties. Our evaluation reveals a significant gap: current models are poorly aligned with human perception of these nuanced properties. We then demonstrate that a post-training phase can effectively bridge this gap, significantly enhancing the model's alignment with human judgments. Furthermore, we show that this learned cognitive alignment is not merely predictive but also transferable to downstream creative tasks. By integrating our cognitively-aligned MLLM into an image generation pipeline, we can guide the synthesis process to produce images that better embody desired traits, such as being more memorable or visually appealing. Our work provides a benchmark to measure this human-like perception, a post-training pipeline to enhance it, and a demonstration that this alignment unlocks more human-centric AI.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像識別対象に何があるのかを判断し、シーンを記述する能力に長けている一方で、画像が人間の観察者に対してどのように感じられるかを理解する能力に欠けることが多い。
このギャップは、イメージを記憶しやすく、面白く、審美的に喜ばせ、感情的に刺激的になるような、主観的な認知特性を考える際に最も顕著である。
この課題を体系的に解決するために,画像認識特性のMLLMを評価するための総合的なベンチマークであるCogIP-Benchを紹介する。
現在のモデルは、これらのニュアンスド特性に対する人間の認識と不一致である。
そして、トレーニング後のフェーズがこのギャップを効果的に橋渡しし、モデルと人間の判断との整合性を大幅に向上させることを実証する。
さらに,この学習された認知的アライメントは,単に予測だけでなく,下流の創造的タスクにも伝達可能であることを示す。
認知的に整合したMLLMを画像生成パイプラインに統合することで、より記憶力や視覚的に魅力的であるような、望ましい特徴を具現化するイメージを生成するための合成プロセスを導くことができます。
私たちの研究は、この人間のような知覚を測定するためのベンチマーク、それを強化するためのトレーニング後のパイプライン、そしてこのアライメントがより人間中心のAIを解放する証拠を提供する。
関連論文リスト
- Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports [18.336392633341493]
大規模な類似性判定は、脳の感情幾何学をより忠実に捉えることができることを示す。
MLLMは、リッチで神経に適応した感情表現を自律的に開発できるという、説得力のある証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T05:22:33Z) - The Iconicity of the Generated Image [22.154465616964256]
人間がどのようにイメージを解釈し、生成するかは、私たちが露出した画像の影響を受けます。
ビジュアル生成AIモデルは、多くのトレーニングイメージに公開され、これに基づいて新しいイメージを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-09-19T23:59:43Z) - Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis [34.100793905255955]
マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
論文 参考訳(メタデータ) (2025-04-22T12:43:37Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
人間の視覚知覚と記憶の理解の進歩にもかかわらず、画像の記憶可能性にどのような特徴が寄与するかは明らかになっていない。
我々は、VGG16畳み込みニューラルネットワーク(CNN)上に構築されたオートエンコーダベースのアプローチを用いて、画像の潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。