論文の概要: Enhancing Vision Language Models with Logic Reasoning for Situational Awareness
- arxiv url: http://arxiv.org/abs/2601.11322v1
- Date: Fri, 16 Jan 2026 14:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.520394
- Title: Enhancing Vision Language Models with Logic Reasoning for Situational Awareness
- Title(参考訳): 状況認識のための論理推論による視覚言語モデルの強化
- Authors: Pavana Pradeep, Krishna Kant, Suya Yu,
- Abstract要約: VLM(Vision-Language Models)は、画像やビデオから複雑なアクティビティの高レベルかつ解釈可能な記述を生成する機能を提供する。
本稿では,VLMと従来のコンピュータビジョン手法を明示的な論理推論により統合する手法を提案する。
- 参考スコア(独自算出の注目度): 3.1275060062551208
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) offer the ability to generate high-level, interpretable descriptions of complex activities from images and videos, making them valuable for situational awareness (SA) applications. In such settings, the focus is on identifying infrequent but significant events with high reliability and accuracy, while also extracting fine-grained details and assessing recognition quality. In this paper, we propose an approach that integrates VLMs with traditional computer vision methods through explicit logic reasoning to enhance SA in three key ways: (a) extracting fine-grained event details, (b) employing an intelligent fine-tuning (FT) strategy that achieves substantially higher accuracy than uninformed selection, and (c) generating justifications for VLM outputs during inference. We demonstrate that our intelligent FT mechanism improves the accuracy and provides a valuable means, during inferencing, to either confirm the validity of the VLM output or indicate why it may be questionable.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像やビデオから複雑なアクティビティの高レベルかつ解釈可能な記述を生成する能力を提供し、状況認識(SA)アプリケーションに有用である。
このような設定では、頻度の低い重要な事象を高い信頼性と精度で識別すると同時に、きめ細かい詳細を抽出し、認識品質を評価することに焦点を当てている。
本稿では,VLMを従来のコンピュータビジョン手法と統合する手法を提案する。
(a)きめ細かい出来事を抽出すること。
b) インフォームド選択よりも精度の高い知的微調整(FT)戦略を採用し、
(c)推論中にVLM出力の正当性を生成する。
我々は,我々の知的FT機構が精度を向上し,VLM出力の正当性を確認したり,なぜ疑わしいのかを示すための貴重な手段を提供することを示した。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Emotion Knowledge Enhancement for Vision Large Language Models: A Self-Verification Approach for High-Quality Emotion Instruction Data Generation [17.94565281111736]
本稿では、感情分析のための高品質な指導データを生成するための感情知識強化(SEKE)を用いた自己検証手法を提案する。
このアプローチは、人間の以前の知識をVLLM推論に統合し、三段階の感情記述の間に固有の相関関係が導かれる。
さらに,不確実性を考慮したモンテカルロサンプリング(SV-UAMC)による自己検証戦略を組み込んで,より正確なVLLM予測を効率的に抽出する。
論文 参考訳(メタデータ) (2025-05-14T03:00:20Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning [0.0]
大規模視覚言語モデル(AKGP-LVLM)のための適応的知識誘導型事前学習法を提案する。
事前訓練と微調整の間、構造化された、構造化されていない知識をLVLMに組み込む。
提案手法を4つのベンチマークデータセットで評価し,最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-15T05:45:04Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。