論文の概要: Visual Superordinate Abstraction for Robust Concept Learning
- arxiv url: http://arxiv.org/abs/2205.14444v1
- Date: Sat, 28 May 2022 14:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:08:37.764354
- Title: Visual Superordinate Abstraction for Robust Concept Learning
- Title(参考訳): ロバスト概念学習のための視覚的スーパーオーディネート抽象化
- Authors: Qi Zheng, Chaoyue Wang, Dadong Wang, Dacheng Tao
- Abstract要約: 概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.15940996821541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concept learning constructs visual representations that are connected to
linguistic semantics, which is fundamental to vision-language tasks. Although
promising progress has been made, existing concept learners are still
vulnerable to attribute perturbations and out-of-distribution compositions
during inference. We ascribe the bottleneck to a failure of exploring the
intrinsic semantic hierarchy of visual concepts, e.g. \{red, blue,...\} $\in$
`color' subspace yet cube $\in$ `shape'. In this paper, we propose a visual
superordinate abstraction framework for explicitly modeling semantic-aware
visual subspaces (i.e. visual superordinates). With only natural visual
question answering data, our model first acquires the semantic hierarchy from a
linguistic view, and then explores mutually exclusive visual superordinates
under the guidance of linguistic hierarchy. In addition, a quasi-center visual
concept clustering and a superordinate shortcut learning schemes are proposed
to enhance the discrimination and independence of concepts within each visual
superordinate. Experiments demonstrate the superiority of the proposed
framework under diverse settings, which increases the overall answering
accuracy relatively by 7.5\% on reasoning with perturbations and 15.6\% on
compositional generalization tests.
- Abstract(参考訳): 概念学習は、視覚言語タスクの基本となる言語意味論と結びついた視覚表現を構成する。
有望な進展はあったが、既存の概念学習者は推論中に属性摂動や分布外構成に弱い。
視覚概念の固有の意味的階層、例えば \{red, blue,...\} $\in$ `color' 部分空間と立方体 $\in$ `shape' を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間(視覚的スーパーオーディネート)を明示的にモデル化するための視覚的スーパーオーディネート抽象化フレームワークを提案する。
自然視覚質問応答データのみを用いて,まず言語的視点から意味階層を取得し,その後に言語階層の指導のもとに相互排他的視覚重ね合わせを探索する。
また,視覚上層部における概念の識別と独立性を高めるために,準中心視覚概念クラスタリングとスーパーオーディネートショートカット学習スキームを提案する。
様々な条件下でのフレームワークの優位性を示す実験により, 摂動理論の解答精度を7.5 %, 合成一般化試験の解答精度を15.6 %向上させることができた。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。