論文の概要: MetaCLUE: Towards Comprehensive Visual Metaphors Research
- arxiv url: http://arxiv.org/abs/2212.09898v3
- Date: Fri, 2 Jun 2023 04:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:17:47.656404
- Title: MetaCLUE: Towards Comprehensive Visual Metaphors Research
- Title(参考訳): MetaCLUE: 総合的なビジュアルメタファー研究を目指して
- Authors: Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit
Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas
Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani
- Abstract要約: 本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
- 参考スコア(独自算出の注目度): 43.604408485890275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creativity is an indispensable part of human cognition and also an inherent
part of how we make sense of the world. Metaphorical abstraction is fundamental
in communicating creative ideas through nuanced relationships between abstract
concepts such as feelings. While computer vision benchmarks and approaches
predominantly focus on understanding and generating literal interpretations of
images, metaphorical comprehension of images remains relatively unexplored.
Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual
metaphor. We also collect high-quality and rich metaphor annotations (abstract
objects, concepts, relationships along with their corresponding object boxes)
as there do not exist any datasets that facilitate the evaluation of these
tasks. We perform a comprehensive analysis of state-of-the-art models in vision
and language based on our annotations, highlighting strengths and weaknesses of
current approaches in visual metaphor Classification, Localization,
Understanding (retrieval, question answering, captioning) and gEneration
(text-to-image synthesis) tasks. We hope this work provides a concrete step
towards developing AI systems with human-like creative capabilities.
- Abstract(参考訳): 創造性は人間の認知に欠かせない部分であり、世界を理解する方法の本質的な部分でもある。
メタフォリカル抽象は、感情のような抽象概念間のニュアンスな関係を通して創造的なアイデアを伝えるのに基本的である。
コンピュータビジョンのベンチマークとアプローチは画像のリテラル解釈の理解と生成に重点を置いているが、画像の比喩的理解はいまだに解明されていない。
この目的に向けて,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
また、これらのタスクの評価を容易にするデータセットが存在しないため、高品質でリッチなメタファアノテーション(抽象オブジェクト、概念、関係、対応するオブジェクトボックス)も収集します。
我々は,視覚と言語における最先端モデルの総合的な分析を行い,視覚メタファ分類,局所化,理解(リトライバル,質問応答,キャプション),生成(テキスト対画像合成)タスクにおける現在のアプローチの強みと弱みを強調する。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
関連論文リスト
- CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - Semantic Composition in Visually Grounded Language Models [0.0]
視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
論文 参考訳(メタデータ) (2023-05-15T03:19:42Z) - Vision-Language Models in Remote Sensing: Current Progress and Future
Trends [19.179306993193023]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それら間の関係を推測したり、画像の自然言語記述を生成することもできる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Visual resemblance and communicative context constrain the emergence of
graphical conventions [21.976382800327965]
描画は視覚世界についてコミュニケーションするための多彩な媒体を提供する。
視聴者は、自分の参照するエンティティ(つまり画像)にのみ類似する能力に基づいて、図面を理解できますか?
彼らはこれらの実体(記号)との共有だが任意の関連に基づく図面を理解できますか。
論文 参考訳(メタデータ) (2021-09-17T23:05:36Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Metaphor Generation with Conceptual Mappings [58.61307123799594]
我々は、関連する動詞を置き換えることで、リテラル表現を与えられた比喩文を生成することを目指している。
本稿では,認知領域間の概念マッピングを符号化することで生成過程を制御することを提案する。
教師なしCM-Lexモデルは,近年のディープラーニングメタファ生成システムと競合することを示す。
論文 参考訳(メタデータ) (2021-06-02T15:27:05Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。