論文の概要: VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2601.12781v1
- Date: Mon, 19 Jan 2026 07:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.789512
- Title: VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension
- Title(参考訳): VIRO : 表現理解の検証をめざしたロバストで高能率なニューロシンボリック推論
- Authors: Hyejin Park, Junhyuk Kwon, Suha Kwak, Jungseul Ok,
- Abstract要約: Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
- 参考スコア(独自算出の注目度): 51.76841625486355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Comprehension (REC) aims to localize the image region corresponding to a natural-language query. Recent neuro-symbolic REC approaches leverage large language models (LLMs) and vision-language models (VLMs) to perform compositional reasoning, decomposing queries 4 structured programs and executing them step-by-step. While such approaches achieve interpretable reasoning and strong zero-shot generalization, they assume that intermediate reasoning steps are accurate. However, this assumption causes cascading errors: false detections and invalid relations propagate through the reasoning chain, yielding high-confidence false positives even when no target is present in the image. To address this limitation, we introduce Verification-Integrated Reasoning Operators (VIRO), a neuro-symbolic framework that embeds lightweight operator-level verifiers within reasoning steps. Each operator executes and validates its output, such as object existence or spatial relationship, thereby allowing the system to robustly handle no-target cases when verification conditions are not met. Our framework achieves state-of-the-art performance, reaching 61.1% balanced accuracy across target-present and no-target settings, and demonstrates generalization to real-world egocentric data. Furthermore, VIRO shows superior computational efficiency in terms of throughput, high reliability with a program failure rate of less than 0.3%, and scalability through decoupled program generation from execution.
- Abstract(参考訳): Referring Expression Comprehension (REC)は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチでは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を使用して、構成推論を行い、4つの構造化プログラムを分解し、ステップバイステップで実行する。
このような手法は解釈可能な推論と強いゼロショット一般化を実現するが、中間的推論ステップは正確であると仮定する。
しかし、この仮定はカスケードエラーを引き起こす: 偽検出と無効な関係は推論連鎖を介して伝播し、画像中にターゲットが存在しない場合でも高い信頼の偽陽性をもたらす。
この制限に対処するために、我々は、推論ステップ内に軽量な演算子レベルの検証子を埋め込んだ、ニューロシンボリックなフレームワークであるVerification-Integrated Reasoning Operators (VIRO)を導入する。
各オペレータは、オブジェクトの存在や空間的関係などの出力を実行し、検証条件が満たされていない場合に、システムがターゲット外ケースを堅牢に処理できるようにする。
我々のフレームワークは最先端の性能を達成し、目標設定と目標設定のバランスの取れた精度61.1%に達し、実世界のエゴセントリックなデータへの一般化を実証する。
さらに、VIROはスループット、高い信頼性、0.3%未満のプログラム失敗率、および実行から切り離されたプログラム生成によるスケーラビリティの点で優れた計算効率を示す。
関連論文リスト
- Formal that "Floats" High: Formal Verification of Floating Point Arithmetic [0.0]
本稿では,金の基準モデルに対する直接RTL-RTLモデルによる浮動小数点演算の検証方法を提案する。
この方法論はエージェントAIベースの形式的プロパティ生成によって拡張され、大規模言語モデル(LLM)駆動の自動化とHuman-in-the-Loop(HITL)の洗練を統合する。
その結果, RTL-to-RTLモデルの直接チェックは, 適用効率が向上し, スタンドアロンの検証よりもアサーションが少なくなることがわかった。
論文 参考訳(メタデータ) (2025-12-07T14:03:44Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - Foundation Models for Logistics: Toward Certifiable, Conversational Planning Interfaces [59.80143393787701]
大規模言語モデル(LLM)は不確実性に対処し、導入障壁を低くしながら再計画の加速を約束する。
本稿では,自然言語対話のアクセシビリティと目標解釈の検証可能な保証とを組み合わせたニューロシンボリック・フレームワークを提案する。
わずか100個の不確実性フィルタで微調整された軽量モデルは、GPT-4.1のゼロショット性能を上回り、推論遅延を50%近く削減する。
論文 参考訳(メタデータ) (2025-07-15T14:24:01Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。