論文の概要: Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames
- arxiv url: http://arxiv.org/abs/2110.07420v1
- Date: Thu, 14 Oct 2021 14:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 19:55:09.308467
- Title: Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames
- Title(参考訳): アートイメージから誘発される社会的概念のマルチモーダルフレームによる自動モデリング
- Authors: Delfina Sol Martinez Pandiani and Valentina Presutti
- Abstract要約: 非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。
本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。
本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
- 参考スコア(独自算出の注目度): 1.4502611532302037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social concepts referring to non-physical objects--such as revolution,
violence, or friendship--are powerful tools to describe, index, and query the
content of visual data, including ever-growing collections of art images from
the Cultural Heritage (CH) field. While much progress has been made towards
complete image understanding in computer vision, automatic detection of social
concepts evoked by images is still a challenge. This is partly due to the
well-known semantic gap problem, worsened for social concepts given their lack
of unique physical features, and reliance on more unspecific features than
concrete concepts. In this paper, we propose the translation of recent
cognitive theories about social concept representation into a software approach
to represent them as multimodal frames, by integrating multisensory data. Our
method focuses on the extraction, analysis, and integration of multimodal
features from visual art material tagged with the concepts of interest. We
define a conceptual model and present a novel ontology for formally
representing social concepts as multimodal frames. Taking the Tate Gallery's
collection as an empirical basis, we experiment our method on a corpus of art
images to provide a proof of concept of its potential. We discuss further
directions of research, and provide all software, data sources, and results.
- Abstract(参考訳): 非物理的対象(革命、暴力、友情など)を参照する社会的概念は、文化遺産(ch)分野の芸術画像のコレクションを含む視覚データのコンテンツを記述、インデックス化し、照会するための強力なツールである。
コンピュータビジョンの完全な画像理解に向けて多くの進歩がなされているが、画像によって誘発される社会的概念の自動検出は依然として課題である。
これは、よく知られたセマンティックギャップの問題、独特の物理的特徴の欠如、具体的な概念よりも非特異的な特徴への依存など、社会的概念の悪化による部分がある。
本稿では,社会的概念表現に関する近年の認知理論を,マルチモーダル・フレームとして表現するためのソフトウェア・アプローチに変換し,多感覚データを統合することを提案する。
提案手法は,関心概念にタグづけされたビジュアルアート素材からマルチモーダルな特徴の抽出,解析,統合に焦点を当てている。
概念モデルを定義し,社会概念をマルチモーダルフレームとして形式的に表現するための新しいオントロジーを提案する。
テイト・ギャラリーのコレクションを実証的基盤として,我々はその可能性を実証するために,アートイメージのコーパスを用いて手法を実験した。
我々は研究のさらなる方向性を議論し、すべてのソフトウェア、データソース、結果を提供する。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Hierarchical Concept Discovery Models: A Concept Pyramid Scheme [11.138948381367133]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
私たちのゴールは、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することです。
この枠組みの中では、概念情報は全体像と一般的な非構造化概念との類似性にのみ依存しない。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。