論文の概要: Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames
- arxiv url: http://arxiv.org/abs/2110.07420v1
- Date: Thu, 14 Oct 2021 14:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 19:55:09.308467
- Title: Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames
- Title(参考訳): アートイメージから誘発される社会的概念のマルチモーダルフレームによる自動モデリング
- Authors: Delfina Sol Martinez Pandiani and Valentina Presutti
- Abstract要約: 非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。
本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。
本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
- 参考スコア(独自算出の注目度): 1.4502611532302037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social concepts referring to non-physical objects--such as revolution,
violence, or friendship--are powerful tools to describe, index, and query the
content of visual data, including ever-growing collections of art images from
the Cultural Heritage (CH) field. While much progress has been made towards
complete image understanding in computer vision, automatic detection of social
concepts evoked by images is still a challenge. This is partly due to the
well-known semantic gap problem, worsened for social concepts given their lack
of unique physical features, and reliance on more unspecific features than
concrete concepts. In this paper, we propose the translation of recent
cognitive theories about social concept representation into a software approach
to represent them as multimodal frames, by integrating multisensory data. Our
method focuses on the extraction, analysis, and integration of multimodal
features from visual art material tagged with the concepts of interest. We
define a conceptual model and present a novel ontology for formally
representing social concepts as multimodal frames. Taking the Tate Gallery's
collection as an empirical basis, we experiment our method on a corpus of art
images to provide a proof of concept of its potential. We discuss further
directions of research, and provide all software, data sources, and results.
- Abstract(参考訳): 非物理的対象(革命、暴力、友情など)を参照する社会的概念は、文化遺産(ch)分野の芸術画像のコレクションを含む視覚データのコンテンツを記述、インデックス化し、照会するための強力なツールである。
コンピュータビジョンの完全な画像理解に向けて多くの進歩がなされているが、画像によって誘発される社会的概念の自動検出は依然として課題である。
これは、よく知られたセマンティックギャップの問題、独特の物理的特徴の欠如、具体的な概念よりも非特異的な特徴への依存など、社会的概念の悪化による部分がある。
本稿では,社会的概念表現に関する近年の認知理論を,マルチモーダル・フレームとして表現するためのソフトウェア・アプローチに変換し,多感覚データを統合することを提案する。
提案手法は,関心概念にタグづけされたビジュアルアート素材からマルチモーダルな特徴の抽出,解析,統合に焦点を当てている。
概念モデルを定義し,社会概念をマルチモーダルフレームとして形式的に表現するための新しいオントロジーを提案する。
テイト・ギャラリーのコレクションを実証的基盤として,我々はその可能性を実証するために,アートイメージのコーパスを用いて手法を実験した。
我々は研究のさらなる方向性を議論し、すべてのソフトウェア、データソース、結果を提供する。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives [3.418398936676879]
この研究は、ソーシャルメディアプラットフォームにおける画像の社会的・文化的影響を大規模に調査するためのフレームワークであるFRESCOを提示する。
FRESCOは、最新のコンピュータビジョン技術を用いて、画像を数値変数と分類変数に分解する。
このフレームワークは、線や色のような基本的な視覚的特徴を含むプラスティックレベル、特定の実体や概念を表す図形レベル、特にオブザーバーとオブザーバーの視点を構築することに焦点を当てた啓示レベルという3つのレベルにわたって画像を分析する。
論文 参考訳(メタデータ) (2024-07-03T16:57:38Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。