論文の概要: Delineating Knowledge Boundaries for Honest Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.26419v1
- Date: Wed, 29 Apr 2026 08:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.314506
- Title: Delineating Knowledge Boundaries for Honest Large Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける知識境界の定式化
- Authors: Junru Song, Yimeng Hu, Yijing Chen, Huining Li, Qian Li, Lizhen Cui, Yuntao Du,
- Abstract要約: VLM(Large Vision-Language Models)は目覚ましいマルチモーダルな性能を達成しているが、幻覚の傾向は残る。
このような未知の疑問に直面する際のVLMの拒絶能力を高めるための体系的枠組みを提案する。
- 参考スコア(独自算出の注目度): 28.13601862872343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) have achieved remarkable multimodal performance yet remain prone to factual hallucinations, particularly in long-tail or specialized domains. Moreover, current models exhibit a weak capacity to refuse queries that exceed their parametric knowledge. In this paper, we propose a systematic framework to enhance the refusal capability of VLMs when facing such unknown questions. We first curate a model-specific "Visual-Idk" (Visual-I don't know) dataset, leveraging multi-sample consistency probing to distinguish between known and unknown facts. We then align the model using supervised fine-tuning followed by preference-aware optimization (e.g., DPO, ORPO) to effectively delineate its knowledge boundaries. Results on the Visual-Idk dataset show our method improves the Truthful Rate from 57.9\% to 67.3\%. Additionally, internal probing also demonstrates that the model genuinely recognizes its boundaries instead of just memorizing refusal patterns. Our framework further generalizes to out-of-distribution medical and perceptual domains, providing a robust path toward more trustworthy and prudent visual assistants.
- Abstract(参考訳): VLM(Large Vision-Language Models)は目覚ましいマルチモーダルな性能を達成しているが、特にロングテールドメインや特殊ドメインでは幻覚の傾向が強い。
さらに、現在のモデルはパラメトリック知識を超えるクエリを拒否する能力が弱い。
本稿では,これらの未知の疑問に直面するとき,VLMの拒否能力を高めるための体系的枠組みを提案する。
まず、モデル固有の"Visual-Idk"データセットをキュレートし、既知の事実と未知の事実を区別するマルチサンプル一貫性探索を活用する。
次に、教師付き微調整を用いてモデルを整列させ、その知識境界を効果的に記述するために、好みに応じた最適化(例えば、DPO、ORPO)を行う。
Visual-Idkデータセットの結果から,本手法は真理レートを57.9\%から67.3\%に改善することが示された。
さらに、内部探索では、モデルが単に拒絶パターンを記憶するのではなく、その境界を真に認識していることも示している。
当社のフレームワークは,医療分野や知覚領域のアウト・オブ・ディストリビューションにさらに一般化し,より信頼性の高い視覚アシスタントへの堅牢な道のりを提供する。
関連論文リスト
- POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch [84.73366911912512]
エージェント・シーディング(Agenic Seeding)は,エージェント行動の抽出に必要な前駆体を織り込むための専用フェーズである。
本稿では、最近の対話を高忠実に保ちながら、歴史的コンテキストをレンダリングを介して視覚空間に折り畳みながら、適応的履歴認識圧縮方式であるV-Foldを提案する。
我々は,最新のマルチモーダルエージェントサーチモデルであるPOINTS-Seeker-8Bを開発した。
論文 参考訳(メタデータ) (2026-04-15T16:09:37Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Graphing the Truth: Structured Visualizations for Automated Hallucination Detection in LLMs [0.0]
本稿では,プロプライエタリな知識とモデル生成コンテンツをインタラクティブな視覚的知識グラフにまとめるフレームワークを提案する。
ユーザは不整合を診断し、弱い推論チェーンを特定し、修正フィードバックを提供する。
論文 参考訳(メタデータ) (2025-11-29T23:09:15Z) - Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。