論文の概要: Attribute-Grounded Selective Reasoning for Artwork Emotion Understanding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.15755v1
- Date: Fri, 15 May 2026 09:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.228851
- Title: Attribute-Grounded Selective Reasoning for Artwork Emotion Understanding with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いたアートワーク感情理解のための属性周辺選択推論
- Authors: Cheng Zhang, Yuer Liu, Zhiyu Zhou, Hongxia Xie, Wen-Huang Cheng,
- Abstract要約: 私たちはAttribute-Grounded Selective Reasoning (AGSR)としてアートワークの感情理解を定式化する。
我々はEmoArtを15のアートトレーニングアノテータによって注釈付けされた132,664のアートワークヒトサリエンス拡張として拡張する。
FAB-Gは,まず属性レベルのサリエンスを予測し,その後下流の感情分析を拘束するマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 20.702440144854847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) can produce fluent artwork emotion explanations, but they often suffer from attribute flooding: they enumerate many visible formal attributes without identifying which cues actually support the affective judgment. We therefore formulate artwork emotion understanding as Attribute-Grounded Selective Reasoning (AGSR), where predefined formal attributes serve as evidence units and only emotionally operative attributes should enter the final interpretation. To make this problem measurable, we extend EmoArt, originally introduced at ACM MM 2025 as a 132,664-artwork resource with content, formal-attribute, valence-arousal, and emotion annotations, by adding a 1,400-artwork human salience extension annotated by 15 art-trained annotators. This extension provides instance-level supervision for distinguishing attributes that are merely present from those that are emotionally salient. We further propose FAB-G (Formal-Attribute Bottleneck-Guided reasoning), a supervised multi-agent framework that first predicts attribute-level salience and then constrains downstream emotional analysis to the retained cues. Experiments show that FAB-G yields consistent gains in emotion, arousal, and valence prediction, achieves stronger agreement with human-marked salient attributes under Dice and Tversky metrics, and produces substantially more compact final explanations than prompting-based baselines. Cross-dataset evaluation further suggests that attribute-grounded salience selection transfers beyond the source distribution of EmoArt, while also revealing attribute-specific boundary cases. The dataset and project page are available at https://zhiliangzhang.github.io/EmoArt-130k/
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、流動的なアートワークの感情を説明できるが、しばしば属性の洪水に悩まされる。
そこで我々は,Attribute-Grounded Selective Reasoning (AGSR) として芸術的感情理解を定式化した。
ACM MM 2025で最初に導入されたEmoArtは、コンテンツ、形式属性、ヴァレンス覚醒、感情アノテーションを備えた132,664のアートリソースであり、15のアートトレーニングアノテーションで注釈付けされた1,400のアートワーク人間のサリエンス拡張を追加することで、この問題を計測できるようにする。
この拡張は、感情的に健全な属性と単に存在する属性を区別するためのインスタンスレベルの監視を提供する。
FAB-G(Formal-Attribute Bottleneck-Guided reasoning)は、まず属性レベルのサリエンスを予測し、その後下流の感情分析を継続キューに制約する教師付きマルチエージェントフレームワークである。
実験により、FAB-Gは感情、覚醒、原子価の予測において一貫した利得を得られ、Dice と Tversky の指標の下で人間の目印の塩分属性との強い一致を達成し、ベースラインのプロンプトよりもはるかにコンパクトな最終説明を生成することが示された。
クロスデータセット評価により,属性接地されたサリエンス選択はEmoArtのソース分布を超えて伝達され,属性固有の境界ケースも明らかにされている。
データセットとプロジェクトページはhttps://zhiliangzhang.github.io/EmoArt-130k/で公開されている。
関連論文リスト
- Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models [14.458242760193203]
音声感情認識モデルは典型的には、人間の感情の本質的なあいまいさを覆い隠して、単一の分類ラベルを使用する。
本稿では,高品質な合成アノテーションを生成することで,ALM(Large Audio-Language Models)がアノテーションボトルネックを軽減することができるかを検討する。
本稿では,ALMを利用してSynthetic Perceptual Proxiesを作成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T03:32:24Z) - What really matters for person re-identification? A Mixture-of-Experts Framework for Semantic Attribute Importance [3.1485041255193784]
MoSAIC-ReIDはMixture-of-Expertsフレームワークであり、歩行者属性の重要性を体系的に定量化する。
提案手法では, 一つの属性にリンクしたLoRAベースのエキスパートと, 制御属性解析が可能なオラクルルータを用いる。
論文 参考訳(メタデータ) (2025-12-09T15:14:28Z) - EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。
我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。
Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-04-23T16:23:17Z) - Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis [34.100793905255955]
マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
論文 参考訳(メタデータ) (2025-04-22T12:43:37Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。