論文の概要: Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2511.11751v1
- Date: Thu, 13 Nov 2025 18:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.27935
- Title: Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models
- Title(参考訳): 概念ルールネット:視覚言語モデルにおける接地型マルチエージェントニューロシンボリック推論
- Authors: Sanchit Sinha, Guangzhi Xiong, Zhenghao He, Aidong Zhang,
- Abstract要約: Concept-RuleNetは、透明な推論を維持しながら視覚的なグラウンドを再構築するマルチエージェントシステムである。
我々のシステムは、最先端のニューロシンボリックベースラインを平均5%増加させ、また、ルールにおける幻覚シンボルの発生を最大50%減少させる。
- 参考スコア(独自算出の注目度): 41.6338086518055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision-language models (VLMs) deliver impressive predictive accuracy yet offer little insight into 'why' a decision is reached, frequently hallucinating facts, particularly when encountering out-of-distribution data. Neurosymbolic frameworks address this by pairing black-box perception with interpretable symbolic reasoning, but current methods extract their symbols solely from task labels, leaving them weakly grounded in the underlying visual data. In this paper, we introduce a multi-agent system - Concept-RuleNet that reinstates visual grounding while retaining transparent reasoning. Specifically, a multimodal concept generator first mines discriminative visual concepts directly from a representative subset of training images. Next, these visual concepts are utilized to condition symbol discovery, anchoring the generations in real image statistics and mitigating label bias. Subsequently, symbols are composed into executable first-order rules by a large language model reasoner agent - yielding interpretable neurosymbolic rules. Finally, during inference, a vision verifier agent quantifies the degree of presence of each symbol and triggers rule execution in tandem with outputs of black-box neural models, predictions with explicit reasoning pathways. Experiments on five benchmarks, including two challenging medical-imaging tasks and three underrepresented natural-image datasets, show that our system augments state-of-the-art neurosymbolic baselines by an average of 5% while also reducing the occurrence of hallucinated symbols in rules by up to 50%.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、印象的な予測精度を提供するが、なぜ「なぜ」決定が達成されたのか、特にアウト・オブ・ディストリビューションデータに遭遇する場合、しばしば幻覚的な事実についてはほとんど洞察を与えない。
ニューロシンボリックフレームワークは、ブラックボックス認識と解釈可能なシンボリック推論を組み合わせることでこの問題に対処するが、現在の手法はタスクラベルのみからシンボルを抽出し、基礎となる視覚データに弱い基盤を残している。
本稿では,透明な推論を維持しながら視覚的グラウンドを再構築するマルチエージェントシステムであるConcept-RuleNetを提案する。
具体的には、まず、マルチモーダル概念生成装置が、訓練画像の代表部分集合から直接識別的視覚概念をマイニングする。
次に、これらの視覚概念を条件付きシンボル発見、実画像統計学の世代を固定し、ラベルバイアスを軽減するために利用する。
その後、シンボルは大きな言語モデル推論エージェントによって実行可能な一階規則に構成され、解釈可能なニューロシンボリックルールが生成される。
最後に、視覚検証エージェントは、推論中、各シンボルの存在度を定量化し、明確な推論経路を持つ予測であるブラックボックスニューラルモデルの出力と共にタンデムでのルール実行をトリガーする。
医療画像の課題2つと、未表現の自然画像のデータセット3つを含む5つのベンチマーク実験により、我々のシステムは、最先端のニューロシンボリック・ベースラインを平均5%増加させ、また、ルールにおける幻覚記号の発生を最大50%減少させることを示した。
関連論文リスト
- CLMN: Concept based Language Models via Neural Symbolic Reasoning [27.255064617527328]
概念言語モデルネットワーク(CLMN)は、パフォーマンスと解釈可能性の両方を維持するニューラルシンボリックフレームワークである。
CLMNは、連続的、人間可読な埋め込みとして概念を表現している。
Modelは、概念を意識した表現でオリジナルのテキスト機能を拡張し、解釈可能なロジックルールを自動的に誘導する。
論文 参考訳(メタデータ) (2025-10-11T06:58:44Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers [1.3812010983144802]
最近のニューロシンボリックアプローチは、解釈可能性を高めるためにCNNベースのモデルからシンボリック・ルールセットを抽出することに成功している。
本稿では、スパースオートエンコーダ(SAE)にインスパイアされたスパース概念層を導入し、視覚変換器(ViT)からシンボルルールを抽出するフレームワークを提案する。
本手法は,記号的推論が可能でありながら,標準のViTよりも5.14%の精度で分類できる。
論文 参考訳(メタデータ) (2025-05-10T19:45:15Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings [23.85885099230917]
このような論理積分モデルを構築するために,Abductive Visual Generation (AbdGen) アプローチを提案する。
本手法は, 論理的推論システムと様々なニューラル生成モデルを統合するために応用できることを実験的に示す。
論文 参考訳(メタデータ) (2023-10-26T15:00:21Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Bridging Neural and Symbolic Representations with Transitional Dictionary Learning [4.326886488307076]
本稿では,記号的知識を暗黙的に学習できる新しいトランジショナル辞書学習(TDL)フレームワークを提案する。
本稿では,期待最大化法(EM)アルゴリズムで学習した辞書を用いて,入力を視覚部分へ分解するゲーム理論拡散モデルを提案する。
3つの抽象的な合成視覚オブジェクトデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。