論文の概要: Slot Abstractors: Toward Scalable Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2403.03458v1
- Date: Wed, 6 Mar 2024 04:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:16:26.203392
- Title: Slot Abstractors: Toward Scalable Abstract Visual Reasoning
- Title(参考訳): Slot Abstractors: スケーラブルな抽象ビジュアル推論を目指して
- Authors: Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb
- Abstract要約: 本稿では,多数のオブジェクトを含む問題にスケール可能な抽象的視覚推論手法であるSlot Abstractorsを提案する。
このアプローチは、4つの抽象的な視覚的推論タスクにまたがる最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 5.914610036560008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstract visual reasoning is a characteristically human ability, allowing the
identification of relational patterns that are abstracted away from object
features, and the systematic generalization of those patterns to unseen
problems. Recent work has demonstrated strong systematic generalization in
visual reasoning tasks involving multi-object inputs, through the integration
of slot-based methods used for extracting object-centric representations
coupled with strong inductive biases for relational abstraction. However, this
approach was limited to problems containing a single rule, and was not scalable
to visual reasoning problems containing a large number of objects. Other recent
work proposed Abstractors, an extension of Transformers that incorporates
strong relational inductive biases, thereby inheriting the Transformer's
scalability and multi-head architecture, but it has yet to be demonstrated how
this approach might be applied to multi-object visual inputs. Here we combine
the strengths of the above approaches and propose Slot Abstractors, an approach
to abstract visual reasoning that can be scaled to problems involving a large
number of objects and multiple relations among them. The approach displays
state-of-the-art performance across four abstract visual reasoning tasks.
- Abstract(参考訳): 抽象的な視覚的推論は特徴的人間の能力であり、オブジェクトの特徴から切り離された関係パターンの識別を可能にし、それらのパターンの体系的な一般化は目に見えない問題に繋がる。
近年の研究では、オブジェクト中心表現の抽出に用いられるスロットベースの手法と、関係抽象のための強い帰納的バイアスを組み合わせることで、マルチオブジェクト入力を含む視覚的推論タスクにおける強力な体系的一般化が示されている。
しかし、このアプローチは単一のルールを含む問題に限られており、多数のオブジェクトを含む視覚的推論問題には拡張性がなかった。
他の最近の研究は、強いリレーショナルインダクティブバイアスを取り入れ、トランスフォーマのスケーラビリティとマルチヘッドアーキテクチャを継承するトランスフォーマの延長であるabstractorを提案したが、このアプローチがマルチオブジェクトの視覚入力にどのように適用されるかはまだ実証されていない。
ここでは、上記のアプローチの強みを組み合わせて、多数のオブジェクトとそれらの間の複数の関係に関わる問題にスケールできる抽象的な視覚的推論のアプローチであるSlot Abstractorsを提案する。
このアプローチは4つの抽象的な視覚的推論タスクで最先端のパフォーマンスを表示する。
関連論文リスト
- Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。
我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文 参考訳(メタデータ) (2024-10-31T22:24:47Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z) - Systematic Visual Reasoning through Object-Centric Relational
Abstraction [5.914610036560008]
対象と抽象的関係の明示的な表現を抽出するモデルであるOCRAを紹介する。
複雑な視覚ディスプレイを含むタスクにおいて、強力な体系的な一般化を実現する。
論文 参考訳(メタデータ) (2023-06-04T22:47:17Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Towards Preserving Semantic Structure in Argumentative Multi-Agent via
Abstract Interpretation [0.0]
モデルチェックの観点から抽象概念を考察する。
いくつかの議論は、様々な観点から同じ位置を守り、議論フレームワークのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2022-11-28T21:32:52Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Hierarchical Relational Inference [80.00374471991246]
本稿では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。
従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習する。
複数のレベルの抽象化を明確に区別し、合成ビデオと実世界のビデオのモデリングにおいて、強力なベースラインを超えて改善する。
論文 参考訳(メタデータ) (2020-10-07T20:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。