論文の概要: Multi-Granularity Modularized Network for Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2007.04670v2
- Date: Fri, 10 Jul 2020 02:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-12 03:12:35.405681
- Title: Multi-Granularity Modularized Network for Abstract Visual Reasoning
- Title(参考訳): 抽象視覚推論のための多次元モジュラー化ネットワーク
- Authors: Xiangru Tang, Haoyuan Wang, Xiang Pan, Jiyang Qi
- Abstract要約: 我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。
認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
- 参考スコア(独自算出の注目度): 15.956555435408557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract visual reasoning connects mental abilities to the physical world,
which is a crucial factor in cognitive development. Most toddlers display
sensitivity to this skill, but it is not easy for machines. Aimed at it, we
focus on the Raven Progressive Matrices Test, designed to measure cognitive
reasoning. Recent work designed some black-boxes to solve it in an end-to-end
fashion, but they are incredibly complicated and difficult to explain. Inspired
by cognitive studies, we propose a Multi-Granularity Modularized Network (MMoN)
to bridge the gap between the processing of raw sensory information and
symbolic reasoning. Specifically, it learns modularized reasoning functions to
model the semantic rule from the visual grounding in a neuro-symbolic and
semi-supervision way. To comprehensively evaluate MMoN, our experiments are
conducted on the dataset of both seen and unseen reasoning rules. The result
shows that MMoN is well suited for abstract visual reasoning and also
explainable on the generalization test.
- Abstract(参考訳): 抽象的視覚推論は、認知発達の重要な要素である精神的能力と物理的世界を結びつける。
ほとんどの幼児はこのスキルに敏感だが、機械にとっては容易ではない。
そこで我々は,認知的推論を測定するために考案されたRaven Progressive Matrices Testに注目した。
最近の研究は、いくつかのブラックボックスをエンドツーエンドで解決するために設計しているが、非常に複雑で説明が難しい。
認知研究に触発されて,生の感覚情報の処理と記号的推論のギャップを埋めるマルチグラニュラ性モジュラー化ネットワーク(mmon)を提案する。
具体的には、モジュール化された推論関数を学習し、神経シンボリックかつ半スーパービジョンの方法で視覚の接地から意味規則をモデル化する。
MMoNを包括的に評価するために,本実験は,見知らぬ推論ルールのデータセットを用いて行った。
その結果,mmon は抽象的視覚的推論に適しており,一般化テストでも説明可能であることがわかった。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain [33.91441575463702]
本研究では,ヒト大脳皮質における視覚的表現の発見と説明のための大規模かつ自動化された枠組みを提案する。
まず、教師なしデータ駆動分解法を用いて、fMRI活動の候補解釈パターンを探索する。
次に、最も強く引き起こす自然画像の集合を同定し、その共有された視覚的意味の自然言語記述を生成することにより、各パターンを説明する。
論文 参考訳(メタデータ) (2025-12-09T13:01:17Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - A Cognitively-Inspired Neural Architecture for Visual Abstract Reasoning
Using Contrastive Perceptual and Conceptual Processing [14.201935774784632]
人間の認知に触発された視覚的抽象的推論タスクを解決するための新しいニューラルアーキテクチャを提案する。
この原則にインスパイアされたアーキテクチャは、反復的で自己コントラストの学習プロセスとして、視覚的抽象的推論をモデル化します。
機械学習データセットRAVENの実験は、CPCNetが以前公開されたすべてのモデルよりも高い精度を達成することを示している。
論文 参考訳(メタデータ) (2023-09-19T11:18:01Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks [3.486683381782259]
本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。
このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでそれをテストしました。
論文 参考訳(メタデータ) (2023-02-08T16:35:05Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Expressive Explanations of DNNs by Combining Concept Analysis with ILP [0.3867363075280543]
我々は,dnn(feed-forward convolutional deep neural network)の理論的根拠をグローバル,表現的,言語的に説明するために,ネットワークが学習した本質的特徴を用いた。
我々の説明は元々のブラックボックスモデルに忠実であることを示している。
論文 参考訳(メタデータ) (2021-05-16T07:00:27Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。