論文の概要: MetaCLUE: Towards Comprehensive Visual Metaphors Research
- arxiv url: http://arxiv.org/abs/2212.09898v2
- Date: Mon, 24 Apr 2023 18:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 03:26:49.402423
- Title: MetaCLUE: Towards Comprehensive Visual Metaphors Research
- Title(参考訳): MetaCLUE: 総合的なビジュアルメタファー研究を目指して
- Authors: Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit
Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas
Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani
- Abstract要約: 本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
- 参考スコア(独自算出の注目度): 43.604408485890275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creativity is an indispensable part of human cognition and also an inherent
part of how we make sense of the world. Metaphorical abstraction is fundamental
in communicating creative ideas through nuanced relationships between abstract
concepts such as feelings. While computer vision benchmarks and approaches
predominantly focus on understanding and generating literal interpretations of
images, metaphorical comprehension of images remains relatively unexplored.
Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual
metaphor. We also collect high-quality and rich metaphor annotations (abstract
objects, concepts, relationships along with their corresponding object boxes)
as there do not exist any datasets that facilitate the evaluation of these
tasks. We perform a comprehensive analysis of state-of-the-art models in vision
and language based on our annotations, highlighting strengths and weaknesses of
current approaches in visual metaphor Classification, Localization,
Understanding (retrieval, question answering, captioning) and gEneration
(text-to-image synthesis) tasks. We hope this work provides a concrete step
towards developing AI systems with human-like creative capabilities.
- Abstract(参考訳): 創造性は人間の認知に欠かせない部分であり、世界を理解する方法の本質的な部分でもある。
メタフォリカル抽象は、感情のような抽象概念間のニュアンスな関係を通して創造的なアイデアを伝えるのに基本的である。
コンピュータビジョンのベンチマークとアプローチは画像のリテラル解釈の理解と生成に重点を置いているが、画像の比喩的理解はいまだに解明されていない。
この目的に向けて,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
また、これらのタスクの評価を容易にするデータセットが存在しないため、高品質でリッチなメタファアノテーション(抽象オブジェクト、概念、関係、対応するオブジェクトボックス)も収集します。
我々は,視覚と言語における最先端モデルの総合的な分析を行い,視覚メタファ分類,局所化,理解(リトライバル,質問応答,キャプション),生成(テキスト対画像合成)タスクにおける現在のアプローチの強みと弱みを強調する。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - The Language of Infographics: Toward Understanding Conceptual Metaphor Use in Scientific Storytelling [9.302187675469554]
我々は概念メタファー(CMT)を可視化領域にマッピングし、科学インフォグラフィックでよく使われる視覚概念メタファーのパターンに対処する。
本分析は, 概念翻訳において, 存在論的, 配向的概念的メタファーが最も広く応用されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T11:39:50Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - Semantic Composition in Visually Grounded Language Models [0.0]
視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
論文 参考訳(メタデータ) (2023-05-15T03:19:42Z) - Visual resemblance and communicative context constrain the emergence of
graphical conventions [21.976382800327965]
描画は視覚世界についてコミュニケーションするための多彩な媒体を提供する。
視聴者は、自分の参照するエンティティ(つまり画像)にのみ類似する能力に基づいて、図面を理解できますか?
彼らはこれらの実体(記号)との共有だが任意の関連に基づく図面を理解できますか。
論文 参考訳(メタデータ) (2021-09-17T23:05:36Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。