Fugu-MT 論文翻訳(概要): NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning

論文の概要: NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning

arxiv url: http://arxiv.org/abs/2502.00372v1
Date: Sat, 01 Feb 2025 09:19:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.677141
Title: NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning
Title（参考訳）: NAVER:明示的な論理推論による視覚グラウンドのためのニューロシンボリック合成オートマトン
Authors: Zhixi Cai, Fucai Ke, Simindokht Jahangard, Maria Garcia de la Banda, Reza Haffari, Peter J. Stuckey, Hamid Rezatofighi,
Abstract要約: 本稿では,人間の認知のような推論を必要とする手法の課題について考察する。本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
参考スコア（独自算出の注目度）: 22.60247555240363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Grounding (VG) tasks, such as referring expression detection and segmentation tasks are important for linking visual entities to context, especially in complex reasoning tasks that require detailed query interpretation. This paper explores VG beyond basic perception, highlighting challenges for methods that require reasoning like human cognition. Recent advances in large language methods (LLMs) and Vision-Language methods (VLMs) have improved abilities for visual comprehension, contextual understanding, and reasoning. These methods are mainly split into end-to-end and compositional methods, with the latter offering more flexibility. Compositional approaches that integrate LLMs and foundation models show promising performance but still struggle with complex reasoning with language-based logical representations. To address these limitations, we propose NAVER, a compositional visual grounding method that integrates explicit probabilistic logic reasoning within a finite-state automaton, equipped with a self-correcting mechanism. This design improves robustness and interpretability in inference through explicit logic reasoning. Our results show that NAVER achieves SoTA performance comparing to recent end-to-end and compositional baselines. The code is available at https://github.com/ControlNet/NAVER .
Abstract（参考訳）: 視覚的グラウンド(VG)タスク、例えば表現の検出やセグメンテーションタスクは、特に詳細なクエリ解釈を必要とする複雑な推論タスクにおいて、視覚的エンティティをコンテキストにリンクするのに重要である。本稿では,人間の認知のような推論を必要とする手法の課題を浮き彫りにする。大規模言語法(LLM)や視覚言語法(VLM)の最近の進歩は、視覚的理解、文脈的理解、推論の能力を改善している。これらの方法は、主にエンドツーエンドとコンポジションメソッドに分割され、後者はより柔軟性を提供する。 LLMと基礎モデルを統合する構成的アプローチは、有望な性能を示すが、言語に基づく論理的表現との複雑な推論に苦慮している。これらの制約に対処するために,有限状態オートマトン内に明示的確率論的論理推論を統合する構成的視覚基底法NAVERを提案する。この設計は、明示的な論理推論を通じて推論の堅牢性と解釈可能性を改善する。その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。コードはhttps://github.com/ControlNet/NAVER で公開されている。

関連論文リスト

Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文参考訳（メタデータ） (2025-06-08T17:38:49Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Visually Interpretable Subtask Reasoning for Visual Question Answering [35.29789706461531]
VISTAR(Visually Interpretable Subtask-Aware Reasoning Model)は、サブタスク駆動型トレーニングフレームワークで、解釈可能性と推論を向上させる。外部リレーショナルモデルに頼る代わりに、VISTARは構造化されたSubtask-of-Thought論理を生成するための微細構造MLLMを使用する。実験により、VISTARは解釈可能性を維持しながら推論精度を一貫して改善することが示された。
論文参考訳（メタデータ） (2025-05-12T21:37:06Z)
VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。 VLMベースの知覚とLLMベースの推論を統合する。その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文参考訳（メタデータ） (2025-03-19T11:05:42Z)
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文参考訳（メタデータ） (2025-01-14T05:18:20Z)
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文参考訳（メタデータ） (2024-09-25T18:35:45Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文参考訳（メタデータ） (2024-06-16T12:58:31Z)
DeiSAM: Segment Anything with Deictic Prompting [26.38776252198988]
DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2024-02-21T20:43:49Z)
3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文参考訳（メタデータ） (2023-12-28T20:26:03Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文参考訳（メタデータ） (2023-06-21T07:34:27Z)
Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文参考訳（メタデータ） (2023-05-26T21:10:11Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。