論文の概要: NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning
- arxiv url: http://arxiv.org/abs/2502.00372v1
- Date: Sat, 01 Feb 2025 09:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:49.027623
- Title: NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning
- Title(参考訳): NAVER:明示的な論理推論による視覚グラウンドのためのニューロシンボリック合成オートマトン
- Authors: Zhixi Cai, Fucai Ke, Simindokht Jahangard, Maria Garcia de la Banda, Reza Haffari, Peter J. Stuckey, Hamid Rezatofighi,
- Abstract要約: 本稿では,人間の認知のような推論を必要とする手法の課題について考察する。
本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 22.60247555240363
- License:
- Abstract: Visual Grounding (VG) tasks, such as referring expression detection and segmentation tasks are important for linking visual entities to context, especially in complex reasoning tasks that require detailed query interpretation. This paper explores VG beyond basic perception, highlighting challenges for methods that require reasoning like human cognition. Recent advances in large language methods (LLMs) and Vision-Language methods (VLMs) have improved abilities for visual comprehension, contextual understanding, and reasoning. These methods are mainly split into end-to-end and compositional methods, with the latter offering more flexibility. Compositional approaches that integrate LLMs and foundation models show promising performance but still struggle with complex reasoning with language-based logical representations. To address these limitations, we propose NAVER, a compositional visual grounding method that integrates explicit probabilistic logic reasoning within a finite-state automaton, equipped with a self-correcting mechanism. This design improves robustness and interpretability in inference through explicit logic reasoning. Our results show that NAVER achieves SoTA performance comparing to recent end-to-end and compositional baselines. The code is available at https://github.com/ControlNet/NAVER .
- Abstract(参考訳): 視覚的グラウンド(VG)タスク、例えば表現の検出やセグメンテーションタスクは、特に詳細なクエリ解釈を必要とする複雑な推論タスクにおいて、視覚的エンティティをコンテキストにリンクするのに重要である。
本稿では,人間の認知のような推論を必要とする手法の課題を浮き彫りにする。
大規模言語法(LLM)や視覚言語法(VLM)の最近の進歩は、視覚的理解、文脈的理解、推論の能力を改善している。
これらの方法は、主にエンドツーエンドとコンポジションメソッドに分割され、後者はより柔軟性を提供する。
LLMと基礎モデルを統合する構成的アプローチは、有望な性能を示すが、言語に基づく論理的表現との複雑な推論に苦慮している。
これらの制約に対処するために,有限状態オートマトン内に明示的確率論的論理推論を統合する構成的視覚基底法NAVERを提案する。
この設計は、明示的な論理推論を通じて推論の堅牢性と解釈可能性を改善する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
コードはhttps://github.com/ControlNet/NAVER で公開されている。
関連論文リスト
- Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - DeiSAM: Segment Anything with Deictic Prompting [26.38776252198988]
DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:43:49Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。
我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。
本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2023-05-26T21:10:11Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。