論文の概要: Pix2Code: Learning to Compose Neural Visual Concepts as Programs
- arxiv url: http://arxiv.org/abs/2402.08280v2
- Date: Sat, 6 Jul 2024 15:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:38:52.687149
- Title: Pix2Code: Learning to Compose Neural Visual Concepts as Programs
- Title(参考訳): Pix2Code: プログラムとしてニューラルビジュアル概念を構成することを学ぶ
- Authors: Antonia Wüst, Wolfgang Stammer, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting,
- Abstract要約: プログラム合成を視覚的リレーショナル推論に拡張するフレームワークPix2Codeを提案する。
Pix2Codeの表現は人間の解釈可能であり、性能向上のために容易に修正可能であることを示す。
- 参考スコア(独自算出の注目度): 23.122886870560247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The challenge in learning abstract concepts from images in an unsupervised fashion lies in the required integration of visual perception and generalizable relational reasoning. Moreover, the unsupervised nature of this task makes it necessary for human users to be able to understand a model's learnt concepts and potentially revise false behaviours. To tackle both the generalizability and interpretability constraints of visual concept learning, we propose Pix2Code, a framework that extends program synthesis to visual relational reasoning by utilizing the abilities of both explicit, compositional symbolic and implicit neural representations. This is achieved by retrieving object representations from images and synthesizing relational concepts as lambda-calculus programs. We evaluate the diverse properties of Pix2Code on the challenging reasoning domains, Kandinsky Patterns and CURI, thereby testing its ability to identify compositional visual concepts that generalize to novel data and concept configurations. Particularly, in stark contrast to neural approaches, we show that Pix2Code's representations remain human interpretable and can be easily revised for improved performance.
- Abstract(参考訳): 教師なしの方法で画像から抽象概念を学ぶことの課題は、視覚知覚と一般化可能な関係推論の必要な統合にある。
さらに、このタスクの教師なしの性質は、人間のユーザーがモデルの学習された概念を理解し、潜在的に誤った振る舞いを修正できるようにする必要がある。
視覚概念学習における一般化可能性と解釈可能性の制約に対処するため,明示的,構成的記号的,暗黙的両方のニューラル表現の能力を利用して,プログラム合成を視覚的リレーショナル推論に拡張するフレームワークPix2Codeを提案する。
これは、画像からオブジェクト表現を取得し、ラムダ計算プログラムとしてリレーショナル概念を合成することで達成される。
Pix2Codeの多様な特性を、難解な推論領域であるKandinsky PatternsとCURIに基づいて評価し、新しいデータや概念構成に一般化する合成視覚概念を識別する能力をテストする。
特に、ニューラルアプローチとは対照的に、Pix2Codeの表現が人間の解釈可能であり、性能改善のために容易に修正可能であることを示す。
関連論文リスト
- Neural Concept Binder [22.074896812195437]
本稿では、離散概念表現を導出する新しいフレームワークであるNeural Concept Binderを紹介する。
これらのエンコーディングは、オブジェクト中心のブロックスロットエンコーディングによる"ソフトバインディング"と、検索ベースの推論による"ハードバインディング"の両方を活用する。
ハードバインディング機構を組み込むことで性能を損なうことなく、ニューラルモジュールとシンボリックモジュールの両方にシームレスに統合できることを実証する。
論文 参考訳(メタデータ) (2024-06-14T11:52:09Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。
我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。
本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文 参考訳(メタデータ) (2022-09-27T16:38:24Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。