論文の概要: Interpretable Visual Reasoning via Induced Symbolic Space
- arxiv url: http://arxiv.org/abs/2011.11603v2
- Date: Tue, 24 Aug 2021 13:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:11:01.560066
- Title: Interpretable Visual Reasoning via Induced Symbolic Space
- Title(参考訳): シンボル空間による解釈可能な視覚推論
- Authors: Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark
Hasegawa-Johnson, Humphrey Shi
- Abstract要約: 視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
- 参考スコア(独自算出の注目度): 75.95241948390472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of concept induction in visual reasoning, i.e.,
identifying concepts and their hierarchical relationships from question-answer
pairs associated with images; and achieve an interpretable model via working on
the induced symbolic concept space. To this end, we first design a new
framework named object-centric compositional attention model (OCCAM) to perform
the visual reasoning task with object-level visual features. Then, we come up
with a method to induce concepts of objects and relations using clues from the
attention patterns between objects' visual features and question words.
Finally, we achieve a higher level of interpretability by imposing OCCAM on the
objects represented in the induced symbolic concept space. Our model design
makes this an easy adaption via first predicting the concepts of objects and
relations and then projecting the predicted concepts back to the visual feature
space so the compositional reasoning module can process normally. Experiments
on the CLEVR and GQA datasets demonstrate: 1) our OCCAM achieves a new state of
the art without human-annotated functional programs; 2) our induced concepts
are both accurate and sufficient as OCCAM achieves an on-par performance on
objects represented either in visual features or in the induced symbolic
concept space.
- Abstract(参考訳): 視覚的推論における概念誘導の問題、すなわち、画像に関連付けられた質問応答対から概念とその階層的関係を同定し、帰納的シンボリック概念空間に取り組むことによって解釈可能なモデルを実現する。
そこで我々はまず,オブジェクト指向視覚特徴を用いた視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
次に,対象の視覚的特徴と質問語間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案する。
最後に, OCCAMを誘導記号空間に表現したオブジェクトに付与することにより, 高い解釈可能性を実現する。
我々のモデル設計は、まずオブジェクトと関係の概念を予測し、次に予測された概念を視覚的特徴空間に投影することで、構成的推論モジュールが正常に処理できるようにする。
CLEVRとGQAデータセットの実験は以下のとおりである。
1)OCCAMは,人為的な機能プログラムを使わずに新たな技術を実現する。
2) OCCAMが視覚的特徴や誘導記号的概念空間で表現されたオブジェクト上でのオンパーパフォーマンスを達成できる限り,我々の誘導概念は正確かつ十分である。
関連論文リスト
- Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects [42.9186628100765]
我々は,概念レベルでの動作を通じて,機械知能に類似の能力を持たせることを目指している。
AOT駆動のアプローチは、3つの重要な観点で利益をもたらす。
論文 参考訳(メタデータ) (2024-09-18T04:53:38Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Concept Bottleneck with Visual Concept Filtering for Explainable Medical
Image Classification [16.849592713393896]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間目標として利用することにより、解釈可能な画像分類を可能にする。
視覚的アクティベーションスコアは,視覚的手がかりを含むか否かを測定する。
計算された視覚的アクティベーションスコアは、見えない概念をフィルタリングするために使用され、結果として視覚的に意味のある概念がセットされる。
論文 参考訳(メタデータ) (2023-08-23T05:04:01Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Right for the Right Concept: Revising Neuro-Symbolic Concepts by
Interacting with their Explanations [24.327862278556445]
本稿では,意味レベルでのモデル修正を可能にするニューロ・シンボリックシーン表現を提案する。
CLEVR-Hansの実験の結果は、私たちのセマンティックな説明が共同創設者を識別できることを示しています。
論文 参考訳(メタデータ) (2020-11-25T16:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。