論文の概要: Slot Abstractors: Toward Scalable Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2403.03458v2
- Date: Sun, 2 Jun 2024 23:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:08:41.869830
- Title: Slot Abstractors: Toward Scalable Abstract Visual Reasoning
- Title(参考訳): Slot Abstractors: スケーラブルな抽象ビジュアル推論を目指して
- Authors: Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb,
- Abstract要約: Slot Abstractorsは、多数のオブジェクトと複数の関連性を含む問題にスケールできる、抽象的な視覚的推論のアプローチである。
このアプローチでは、4つの抽象的な視覚的推論タスクにまたがる最先端のパフォーマンスと、現実世界の画像を含む抽象的な推論タスクを表示する。
- 参考スコア(独自算出の注目度): 5.262577780347204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstract visual reasoning is a characteristically human ability, allowing the identification of relational patterns that are abstracted away from object features, and the systematic generalization of those patterns to unseen problems. Recent work has demonstrated strong systematic generalization in visual reasoning tasks involving multi-object inputs, through the integration of slot-based methods used for extracting object-centric representations coupled with strong inductive biases for relational abstraction. However, this approach was limited to problems containing a single rule, and was not scalable to visual reasoning problems containing a large number of objects. Other recent work proposed Abstractors, an extension of Transformers that incorporates strong relational inductive biases, thereby inheriting the Transformer's scalability and multi-head architecture, but it has yet to be demonstrated how this approach might be applied to multi-object visual inputs. Here we combine the strengths of the above approaches and propose Slot Abstractors, an approach to abstract visual reasoning that can be scaled to problems involving a large number of objects and multiple relations among them. The approach displays state-of-the-art performance across four abstract visual reasoning tasks, as well as an abstract reasoning task involving real-world images.
- Abstract(参考訳): 抽象的な視覚的推論は特徴的人間の能力であり、オブジェクトの特徴から切り離された関係パターンの識別を可能にし、それらのパターンの体系的な一般化は目に見えない問題に繋がる。
近年の研究では、多目的入力を含む視覚的推論タスクにおいて、オブジェクト中心表現の抽出に使用されるスロットベースの手法と、リレーショナル抽象化のための強い帰納的バイアスを統合することで、強力な体系的な一般化が示されている。
しかし、このアプローチは単一のルールを含む問題に限られており、多数のオブジェクトを含む視覚的推論問題には拡張性がなかった。
その他の最近の研究では、強力なリレーショナルインダクティブバイアスを組み込んだTransformerの拡張として、Transformerのスケーラビリティとマルチヘッドアーキテクチャを継承するAbstractorsが提案されている。
ここでは、上記のアプローチの強みを組み合わせて、多数のオブジェクトとそれらの間の複数の関係に関わる問題にスケールできる抽象的な視覚的推論のアプローチであるSlot Abstractorsを提案する。
このアプローチでは、4つの抽象的な視覚的推論タスクにまたがる最先端のパフォーマンスと、現実世界の画像を含む抽象的な推論タスクを表示する。
関連論文リスト
- Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。
我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文 参考訳(メタデータ) (2024-10-31T22:24:47Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z) - Systematic Visual Reasoning through Object-Centric Relational
Abstraction [5.914610036560008]
対象と抽象的関係の明示的な表現を抽出するモデルであるOCRAを紹介する。
複雑な視覚ディスプレイを含むタスクにおいて、強力な体系的な一般化を実現する。
論文 参考訳(メタデータ) (2023-06-04T22:47:17Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Towards Preserving Semantic Structure in Argumentative Multi-Agent via
Abstract Interpretation [0.0]
モデルチェックの観点から抽象概念を考察する。
いくつかの議論は、様々な観点から同じ位置を守り、議論フレームワークのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2022-11-28T21:32:52Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Hierarchical Relational Inference [80.00374471991246]
本稿では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。
従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習する。
複数のレベルの抽象化を明確に区別し、合成ビデオと実世界のビデオのモデリングにおいて、強力なベースラインを超えて改善する。
論文 参考訳(メタデータ) (2020-10-07T20:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。