論文の概要: ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs
- arxiv url: http://arxiv.org/abs/2508.04201v1
- Date: Wed, 06 Aug 2025 08:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.630723
- Title: ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs
- Title(参考訳): ViFP: VLMの信頼性を高める視覚的偽陽性検出フレームワーク
- Authors: Ben Zhang, LuLu Yu, Lei Gao, Jing Liu, QuanJiang Guo, Hui Gao,
- Abstract要約: 偽陽性(FP)推論は、モデルが正しい答えを生成するが、誤った推論経路に従うときに起こる。
視覚的推論の信頼性を高めるためのフレームワークであるViFPを提案する。
FPを検出することにより、解答精度と推理性の両方を改善する。
- 参考スコア(独自算出の注目度): 7.53538591465569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visual-language model (VLM) reasoning, false positive(FP) reasoning occurs when a model generates a correct answer but follows an incorrect reasoning path. Existing methods based on specific multi-step reasoning datasets and reinforcement learning strategies, leading to high training costs and limited generalization. In this work, we propose ViFP, a general framework for enhancing visual reasoning reliability. It improves both answer accuracy and reasoning soundness by detecting FPs. ViFP tackles the limitations of dataset dependency and poor generalization by constructing sub-question templates grounded in the core dimensions of visual reasoning, such as object localization, characteristic description, and object discovery. ViFP then builds effective reasoning paths via multi-turn QA to improve reasoning accuracy. Meanwhile, ViFP dynamically analyzes the consistency of reasoning path to identify potential FPs, and introduces a targeted chain-of-thought (CoT) mechanism that adaptively guides both FP and non-FP samples. Thereby reducing logical errors in the reasoning path while preserving accuracy. Finally, we introduce a reliability evaluation metric-VoC, which integrates answer accuracy and the FP rate, providing a quantitative tool to assess whether a VLM not only answers correctly, but also reasons reliably. Our experiments on closed-source VLMs show that ViFP consistently improves performance across three datasets: A-OKVQA, OKVQA, and FVQA. On A-OKVQA, ViFP improves accuracy by up to 5.4%, surpassing the previous state-of-the-art by 4.3%, and significantly reduces the number of FPs, validating its benefits in enhancing reasoning reliability.
- Abstract(参考訳): 視覚言語モデル(VLM)推論では、偽陽性(FP)推論は、モデルが正しい答えを生成するが、誤った推論経路に従うときに発生する。
特定の多段階推論データセットと強化学習戦略に基づく既存の手法は、高いトレーニングコストと限定的な一般化をもたらす。
本研究では,視覚的推論の信頼性を高めるための一般的なフレームワークであるViFPを提案する。
FPを検出することにより、解答精度と推理性の両方を改善する。
ViFPは、オブジェクトのローカライゼーション、特徴記述、オブジェクト発見といった視覚的推論のコア次元に根ざしたサブクエリテンプレートを構築することで、データセット依存や一般化の限界に対処する。
ViFPはその後、多ターンQAによる効果的な推論パスを構築し、推論精度を向上させる。
一方、ViFPは、潜在的FPを特定するための推論経路の一貫性を動的に解析し、FPと非FPの両方を適応的にガイドするターゲットチェーン・オブ・シント(CoT)機構を導入する。
これにより、精度を保ちながら推論経路における論理誤差を低減することができる。
最後に、応答精度とFP率を統合した信頼性評価基準-VoCを導入し、VLMが正しく答えるだけでなく、確実に答えるかどうかを評価する定量的ツールを提供する。
クローズドソースVLMを用いた実験により,VFPはA-OKVQA,OKVQA,FVQAの3つのデータセットで連続的に性能を向上することがわかった。
A-OKVQAでは、ViFPは精度を最大5.4%向上し、以前の最先端を4.3%上回った。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification [91.15649744496834]
本稿では、長い思考の連鎖から要約された結果の合理化過程を検証する、アウトカムベースプロセス検証(OPV)を提案する。
OPV は 76.3 と比較して F1 スコアが 83.1 の Qwen3-Max-Preview など,はるかに大きなオープンソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-12-11T15:47:38Z) - ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Adaptive Federated Learning Defences via Trust-Aware Deep Q-Networks [1.5374297736981706]
フェデレート学習は、部分的に観察可能な状態での中毒やバックドア攻撃に対して脆弱である。
我々は、クライアントの信頼更新に多信号の証拠を統合する、信頼を意識したディープQネットワークを導入する。
論文 参考訳(メタデータ) (2025-09-25T13:30:09Z) - Confidence-Aware Routing for Large Language Model Reliability Enhancement: A Multi-Signal Approach to Pre-Generation Hallucination Mitigation [0.0]
大規模言語モデルは幻覚に悩まされ、可視だが事実的に誤った内容を生成する。
現在の緩和戦略は、計算コストが高く、信頼性の低いコンテンツ生成を防げない、ポストジェネレーション補正に重点を置いている。
本稿では,予測された信頼性に基づいて,モデルの不確実性を積極的に評価し,クエリをリダイレクトする信頼度対応ルーティングシステムを提案する。
論文 参考訳(メタデータ) (2025-09-23T18:34:20Z) - Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。
既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。
我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文 参考訳(メタデータ) (2025-08-08T11:11:22Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Reliable Federated Disentangling Network for Non-IID Domain Feature [62.73267904147804]
本稿では、RFedDisと呼ばれる新しい信頼性のあるフェデレーション・ディエンタングリング・ネットワークを提案する。
我々の知る限り、提案するRFedDisは、明らかな不確実性と特徴の混在に基づくFLアプローチを開発する最初の試みである。
提案するRFedDisは,他の最先端FL手法と比較して信頼性の高い優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T11:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。