Fugu-MT 論文翻訳(概要): Learning Differentiable Logic Programs for Abstract Visual Reasoning

論文の概要: Learning Differentiable Logic Programs for Abstract Visual Reasoning

arxiv url: http://arxiv.org/abs/2307.00928v1
Date: Mon, 3 Jul 2023 11:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 13:18:29.294303
Title: Learning Differentiable Logic Programs for Abstract Visual Reasoning
Title（参考訳）: 抽象視覚推論のための微分可能論理プログラムの学習
Authors: Hikaru Shindo, Viktor Pfanschilling, Devendra Singh Dhami, Kristian Kersting
Abstract要約: 微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。 NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。 NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
参考スコア（独自算出の注目度）: 18.82429807065658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual reasoning is essential for building intelligent agents that understand the world and perform problem-solving beyond perception. Differentiable forward reasoning has been developed to integrate reasoning with gradient-based machine learning paradigms. However, due to the memory intensity, most existing approaches do not bring the best of the expressivity of first-order logic, excluding a crucial ability to solve abstract visual reasoning, where agents need to perform reasoning by using analogies on abstract concepts in different scenarios. To overcome this problem, we propose NEUro-symbolic Message-pAssiNg reasoNer (NEUMANN), which is a graph-based differentiable forward reasoner, passing messages in a memory-efficient manner and handling structured programs with functors. Moreover, we propose a computationally-efficient structure learning algorithm to perform explanatory program induction on complex visual scenes. To evaluate, in addition to conventional visual reasoning tasks, we propose a new task, visual reasoning behind-the-scenes, where agents need to learn abstract programs and then answer queries by imagining scenes that are not observed. We empirically demonstrate that NEUMANN solves visual reasoning tasks efficiently, outperforming neural, symbolic, and neuro-symbolic baselines.
Abstract（参考訳）: 視覚推論は、世界を理解し、知覚を超えた問題解決を行うインテリジェントエージェントを構築するために不可欠である。微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。しかし、メモリ強度のため、既存のほとんどのアプローチは一階述語論理の表現性を最大限に発揮しないが、抽象的な視覚的推論を解く重要な能力は除いて、エージェントは異なるシナリオで抽象的な概念のアナロジーを用いて推論を行う必要がある。この問題を解決するために,グラフベースの微分可能前方推論器であるNEUro-symbolic Message-pAssiNg reasoNer (NEUMANN)を提案する。さらに,複雑な視覚シーンに説明プログラムを誘導する計算効率のよい構造学習アルゴリズムを提案する。従来の視覚的推論タスクに加えて,エージェントが抽象的なプログラムを学習し,観察されていないシーンを想像して質問に答える,視覚的推論という新たなタスクを提案する。ニューマンが視覚推論のタスクを効率的に解き、ニューラル、シンボリック、ニューロシンボリックのベースラインを上回っていることを実証的に示す。

関連論文リスト

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving [28.57547723919984]
本稿では,認知に触発された新しい3段階のフレームワークであるCogFlowについて紹介する。抽出された視覚的手がかりをその後の推論に忠実に統合することを保証するために,知識内部化リワードモデルを導入する。また、120K以上の高品質な知覚関連アノテーションを持つサンプルを含むモデルトレーニングのための新しいデータセットMathCogも提供します。
論文参考訳（メタデータ） (2026-01-05T08:02:18Z)
Towards Unified Neurosymbolic Reasoning on Knowledge Graphs [37.22138524925735]
知識グラフ推論(KG)は人工知能と知識工学の分野で大きな注目を集めている。我々は、KG推論のための統合されたニューロシンボリック推論フレームワーク、すなわちTunsrを提案する。
論文参考訳（メタデータ） (2025-07-04T16:29:45Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:27:02Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
Abductive Symbolic Solver on Abstraction and Reasoning Corpus [5.903948032748941]
人間は自分の観察と仮説に基づいて視覚的推論タスクを解く。これまでのアプローチはグリッド移行のみに重点を置いていたため、AIが合理的で人間的なソリューションを提供するには不十分だった。本稿では,観測されたデータを知識グラフに象徴的に表現し,ソリューション生成に使用できるコア知識を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-27T09:09:00Z)
VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文参考訳（メタデータ） (2024-10-30T16:11:05Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
Learning Iterative Reasoning through Energy Minimization [77.33859525900334]
ニューラルネットワークを用いた反復推論のための新しいフレームワークを提案する。すべての出力に対してエネルギーランドスケープをパラメータ化するために、ニューラルネットワークをトレーニングします。エネルギー最小化ステップとして反復推論の各ステップを実装し,最小限のエネルギー解を求める。
論文参考訳（メタデータ） (2022-06-30T17:44:20Z)
GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。 GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文参考訳（メタデータ） (2022-06-10T07:52:06Z)
Joint Abductive and Inductive Neural Logical Reasoning [44.36651614420507]
結合誘導型および誘導型ニューラル論理推論(AI-NLR)の問題点を定式化する。まず、概念の源を提供するために、記述論理に基づく存在論的公理を組み込む。そして、概念とクエリをファジィ集合として表現し、すなわち、要素がメンバシップの度合いを持つ集合を概念とクエリをエンティティでブリッジする。
論文参考訳（メタデータ） (2022-05-29T07:41:50Z)
Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文参考訳（メタデータ） (2021-08-08T10:46:53Z)
Machine Number Sense: A Dataset of Visual Arithmetic Problems for Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。これらの視覚的算術問題は幾何学的フィギュアの形をしている。我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文参考訳（メタデータ） (2020-04-25T17:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。