論文の概要: What Makes a Maze Look Like a Maze?
- arxiv url: http://arxiv.org/abs/2409.08202v1
- Date: Thu, 12 Sep 2024 16:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:45:03.442541
- Title: What Makes a Maze Look Like a Maze?
- Title(参考訳): 迷路って何? 迷路って何?
- Authors: Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Noah D. Goodman, Jiajun Wu,
- Abstract要約: 本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 92.80800000328277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A unique aspect of human visual understanding is the ability to flexibly interpret abstract concepts: acquiring lifted rules explaining what they symbolize, grounding them across familiar and unfamiliar contexts, and making predictions or reasoning about them. While off-the-shelf vision-language models excel at making literal interpretations of images (e.g., recognizing object categories such as tree branches), they still struggle to make sense of such visual abstractions (e.g., how an arrangement of tree branches may form the walls of a maze). To address this challenge, we introduce Deep Schema Grounding (DSG), a framework that leverages explicit structured representations of visual abstractions for grounding and reasoning. At the core of DSG are schemas--dependency graph descriptions of abstract concepts that decompose them into more primitive-level symbols. DSG uses large language models to extract schemas, then hierarchically grounds concrete to abstract components of the schema onto images with vision-language models. The grounded schema is used to augment visual abstraction understanding. We systematically evaluate DSG and different methods in reasoning on our new Visual Abstractions Dataset, which consists of diverse, real-world images of abstract concepts and corresponding question-answer pairs labeled by humans. We show that DSG significantly improves the abstract visual reasoning performance of vision-language models, and is a step toward human-aligned understanding of visual abstractions.
- Abstract(参考訳): 人間の視覚的理解のユニークな側面は、抽象概念を柔軟に解釈する能力である。
既成の視覚言語モデルはイメージのリテラル解釈(例:木の枝のようなオブジェクトのカテゴリを認識する)に長けているが、それでもそのような視覚的抽象化(例:木の枝の配列が迷路の壁を形成するか)を理解するのに苦労している。
この課題に対処するために,視覚的抽象化の明示的な構造化表現を基盤と推論に活用するフレームワークであるDeep Schema Grounding (DSG)を紹介した。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは大きな言語モデルを使用してスキーマを抽出し、階層的に具体化してスキーマのコンポーネントを視覚言語モデルで画像に抽象化する。
基底スキーマは、視覚的抽象化の理解を強化するために使用される。
我々は,抽象概念の多種多様な実世界のイメージと,人間によってラベル付けされた質問応答対からなる新しい視覚抽象データセットに基づいて,DSGと異なる手法を体系的に評価した。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させ,視覚的抽象化の人間的理解に向けた一歩であることを示す。
関連論文リスト
- Do Vision-Language Models Really Understand Visual Language? [43.893398898373995]
ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。
近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに対処できることが示唆されている。
本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発する。
論文 参考訳(メタデータ) (2024-09-30T19:45:11Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Abstract Visual Reasoning with Tangram Shapes [16.51170712669011]
KiloGramは人や機械の抽象的な視覚的推論を研究するためのリソースである。
視覚的にも言語的にも豊かであり、全体形の記述を超えてセグメンテーションマップや部分ラベルを含む。
このリソースを用いて、最近のマルチモーダルモデルの抽象的な視覚的推論能力を評価する。
論文 参考訳(メタデータ) (2022-11-29T18:57:06Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。