論文の概要: NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language
- arxiv url: http://arxiv.org/abs/2509.25757v1
- Date: Tue, 30 Sep 2025 04:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.424715
- Title: NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language
- Title(参考訳): NePTune:視覚言語に基づく可変合成推論のためのニューロPythonフレームワーク
- Authors: Danial Kamali, Parisa Kordjamshidi,
- Abstract要約: ネプチューン(NePTune)は、基礎視覚モデルの知覚能力と象徴的推論の合成表現性を統合する、神経象徴的なフレームワークである。
NePTuneは、自然言語クエリを、命令制御フローとVLM生成の不確実性を推論できるソフトロジック演算子をブレンドする実行可能なPythonプログラムに変換する。
我々は、複数の視覚的推論ベンチマークと様々なドメイン上でNePTuneを評価し、敵対的テストを活用し、強力なベースモデルよりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 26.914366732620035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Vision-Language Models (VLMs) have achieved impressive performance in various tasks, yet they often struggle with compositional reasoning, the ability to decompose and recombine concepts to solve novel problems. While neuro-symbolic approaches offer a promising direction, they are typically constrained by crisp logical execution or predefined predicates, which limit flexibility. In this work, we introduce NePTune, a neuro-symbolic framework that overcomes these limitations through a hybrid execution model that integrates the perception capabilities of foundation vision models with the compositional expressiveness of symbolic reasoning. NePTune dynamically translates natural language queries into executable Python programs that blend imperative control flow with soft logic operators capable of reasoning over VLM-generated uncertainty. Operating in a training-free manner, NePTune, with a modular design, decouples perception from reasoning, yet its differentiable operations support fine-tuning. We evaluate NePTune on multiple visual reasoning benchmarks and various domains, utilizing adversarial tests, and demonstrate a significant improvement over strong base models, as well as its effective compositional generalization and adaptation capabilities in novel environments.
- Abstract(参考訳): 現代のビジョン・ランゲージ・モデル(VLM)は様々なタスクにおいて顕著なパフォーマンスを達成しているが、しばしば構成的推論や、新しい問題を解決するために概念を分解・再結合する能力に悩まされている。
ニューロシンボリックアプローチは有望な方向を提供するが、通常は論理的実行や、柔軟性を制限する事前定義された述語によって制約される。
本研究では,これらの制約を克服するニューラルシンボリック・フレームワークであるNePTuneについて,基礎視覚モデルの知覚能力と記号的推論の合成表現性を統合するハイブリッド実行モデルを用いて紹介する。
NePTuneは動的に自然言語クエリを、命令制御フローとVLM生成の不確実性を推論できるソフトロジック演算子をブレンドする実行可能なPythonプログラムに変換する。
モジュラー設計のNePTuneは、推論から知覚を分離するが、その微分可能な操作は微調整をサポートする。
我々は,複数の視覚的推論ベンチマークおよび様々な領域上でのNePTuneの評価を行い,高いベースモデルに対する大幅な改善と,新しい環境における効果的な構成一般化と適応能力を示す。
関連論文リスト
- Integrating Neural and Symbolic Components in a Model of Pragmatic Question-Answering [9.043409663314419]
本稿では確率論的認知モデルを強化するニューロシンボリックフレームワークを提案する。
認知モデルにニューラルモジュールを組み込むための様々なアプローチについて検討する。
ハイブリッドモデルは、人間の回答パターンを予測する際に、従来の確率モデルの性能と一致したり、超えたりすることができる。
論文 参考訳(メタデータ) (2025-06-02T09:34:37Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization [17.49136753589057]
NeSyCoCoは、シンボリック表現を生成し、それらを微分可能なニューラル計算にマッピングする、ニューロシンボリックフレームワークである。
我々のフレームワークは、ReaSCANとCLEVR-CoGenT合成一般化ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-12-20T05:48:58Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。