論文の概要: See Your Heart: Psychological states Interpretation through Visual
Creations
- arxiv url: http://arxiv.org/abs/2302.10276v1
- Date: Sat, 11 Feb 2023 07:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:25:41.620876
- Title: See Your Heart: Psychological states Interpretation through Visual
Creations
- Title(参考訳): 心を見よ - 視覚的創造による心理状態の解釈
- Authors: Likun Yang, Xiaokun Feng, Xiaotang Chen, Shiyu Zhang, Kaiqi Huang
- Abstract要約: 課題である textbfVisual textbfEmotion textbfInterpretation textbfTask (VEIT) を導入する。
VEITは、視覚的な創造を通して創造者の心理的状態の合理的な解釈を生成するためにAIを必要とする。
心理学的理論をサポートするマルチモーダルデータセットSpyInについて述べる。
- 参考スコア(独自算出の注目度): 35.62893059599486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In psychoanalysis, generating interpretations to one's psychological state
through visual creations is facing significant demands. The two main tasks of
existing studies in the field of computer vision, sentiment/emotion
classification and affective captioning, can hardly satisfy the requirement of
psychological interpreting. To meet the demands for psychoanalysis, we
introduce a challenging task, \textbf{V}isual \textbf{E}motion
\textbf{I}nterpretation \textbf{T}ask (VEIT). VEIT requires AI to generate
reasonable interpretations of creator's psychological state through visual
creations. To support the task, we present a multimodal dataset termed SpyIn
(\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset), which is
psychological theory supported and professional annotated. Dataset analysis
illustrates that SpyIn is not only able to support VEIT, but also more
challenging compared with other captioning datasets. Building on SpyIn, we
conduct experiments of several image captioning method, and propose a
visual-semantic combined model which obtains a SOTA result on SpyIn. The
results indicate that VEIT is a more challenging task requiring scene graph
information and psychological knowledge. Our work also show a promise for AI to
analyze and explain inner world of humanity through visual creations.
- Abstract(参考訳): 精神分析学では、視覚的な創造を通して精神状態の解釈を生成することは重大な要求に直面している。
コンピュータビジョン,感情・感情分類,情緒的キャプションの分野での既存研究の2つの課題は,心理的解釈の必要性をほとんど満たさない。
心理分析の要求を満たすために、挑戦的なタスクである \textbf{v}isual \textbf{e}motion \textbf{i}nterpretation \textbf{t}ask (veit)を導入する。
VEITは、視覚的な創造を通して創造者の心理的状態を合理的に解釈することを要求する。
このタスクをサポートするために、心理学理論が支持し、専門家が注釈付けしたSpyIn(\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset)と呼ばれるマルチモーダルデータセットを提案する。
データセット分析は、SpyInがVEITをサポートするだけでなく、他のキャプションデータセットよりも難しいことも示している。
SpyInをベースとした複数の画像キャプション手法の実験を行い、SpyIn上でSOTA結果を得る視覚・セマンティック複合モデルを提案する。
その結果,VEITはシーングラフ情報と心理的知識を必要とする課題であることがわかった。
われわれの研究は、視覚的な創造物を通して人間の内なる世界を分析し、説明するAIの約束も示している。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering [13.886692497676659]
Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
論文 参考訳(メタデータ) (2021-07-13T18:33:04Z) - Modeling Human Mental States with an Entity-based Narrative Graph [31.275150336289578]
本稿では,物語中の文字の内部状態をモデル化するEntity-based Narrative Graph (ENG)を提案する。
私たちは、エンティティ、それらの相互作用、それらが現れるコンテキストを明示的にモデル化し、それらのための豊富な表現を学びます。
性格的精神状態の予測と欲求充足の2つの物語的理解タスクに基づいてモデルを評価し,質的分析を行う。
論文 参考訳(メタデータ) (2021-04-14T19:05:19Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。