論文の概要: LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.18803v3
- Date: Sat, 25 Apr 2026 21:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.907914
- Title: LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける音による幻覚評価のためのLCM-as-Judgeフレームワーク
- Authors: Zhiyuan Jiang, Weihao Hong, Xinlei Guan, Tejaswi Dhandu, Miles Q. Li, Meng Xu, Kuan Huang, Umamaheswara Rao Tida, Bingyu Shen, Daehan Kwak, Boyang Li,
- Abstract要約: Ghost-100は3つのタスクファミリーにまたがる8つのカテゴリにまたがる800の合成画像のベンチマークである。
すべてのイメージは、構造化された5-Level Prompt Intensity Frameworkから引き出された5つのプロンプトとペアリングされる。
ルールに基づくH-Rateは,モデルが接地された拒絶から肯定的なコミットメントへと交差する応答の割合を計測する。
- 参考スコア(独自算出の注目度): 9.095828883716907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in settings where reliable visual grounding carries operational consequences, yet their behavior under progressively coercive prompt phrasing remains undercharacterized. Existing hallucination benchmarks predominantly rely on neutral prompts and binary detection, leaving open how both the incidence and the intensity of fabrication respond to graded linguistic pressure across structurally distinct task types. We present Ghost-100, a procedurally constructed benchmark of 800 synthetically generated images spanning eight categories across three task families: text-illegibility, time-reading, and object-absence, each designed under a negative-ground-truth principle that guarantees the queried target is absent, illegible, or indeterminate by construction. Every image is paired with five prompts drawn from a structured 5-Level Prompt Intensity Framework, holding the image and task identity fixed while varying only directive force, so that tone is isolated as the sole independent variable. We adopt a dual-track evaluation protocol: a rule-based H-Rate measuring the proportion of responses in which a model crosses from grounded refusal into unsupported positive commitment, and a GPT-4o-mini-judged H-Score on a 1-5 scale characterizing the confidence and specificity of fabrication once it occurs. We additionally release a three-stage automated validation workflow, which retrospectively confirms 717 of 800 images as strictly compliant. Evaluating nine open-weight VLMs, we find that H-Rate and H-Score dissociate substantially across model families, reading-style and presence-detection subsets respond to prompt pressure in qualitatively different ways, and several models exhibit non-monotonic sensitivity peaking at intermediate tone levels: patterns that aggregate metrics obscure.
- Abstract(参考訳): VLM(Vision-Language Models)は、信頼性の高い視覚的接地が運用上の結果をもたらすような環境での展開が増えているが、その振る舞いは徐々に強迫的になる。
既存の幻覚ベンチマークは、主に中性的なプロンプトと二分検出に依存しており、構造的に異なるタスクタイプにまたがって、段階的な言語的圧力にどのように反応するかをオープンにしている。
Ghost-100は3つのタスクファミリーにまたがる8つのカテゴリにまたがる800の合成画像の手続き的に構築されたベンチマークである。
すべての画像は、構造化された5-Level Prompt Intensity Frameworkから引き出された5つのプロンプトとペアリングされる。
本稿では, モデルが接地された拒絶から肯定的なコミットメントに交差する応答の比率を測定するルールベースのH-Rateと, 1-5スケールのGPT-4o-mini-judged H-Scoreを用いて, 製造時の信頼性と特異性を特徴付ける2トラック評価プロトコルを採用する。
さらに3段階の自動検証ワークフローをリリースし、800イメージのうち717が厳密に準拠していることを確認します。
H-Rate と H-Score はモデルファミリ間で実質的に解離し、読み方とプレゼンス検出サブセットは定性的に異なる方法で急激な圧力に応答し、いくつかのモデルは中間音レベルにおいて非単調感度ピークを示す。
関連論文リスト
- Beyond Standard Benchmarks: A Systematic Audit of Vision-Language Model's Robustness to Natural Semantic Variation Across Diverse Tasks [11.064940886724257]
本稿では,視覚言語モデル(VLM)の自然なシナリオ下での体系的評価フレームワークを提案する。
ゼロショット画像分類,セマンティックセグメンテーション,視覚的質問応答において,選択したVLMの自然な対向性能を測定した。
解析の結果,頑健なCLIPモデルでは自然の敵対的脆弱性が増幅され,CLIPモデルでは自然言語による敵対的事例のパフォーマンスが著しく低下することが判明した。
論文 参考訳(メタデータ) (2026-04-06T06:48:32Z) - Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity [0.0]
両予測可能性(P)を用いて,マルチターンインタラクションの整合性を継続的に監視できることが示される。
Information Digital Twin (IDT) は、コンテキスト、応答、次のプロンプトループを二次推論や埋め込みなしでPを推定する軽量アーキテクチャである。
論文 参考訳(メタデータ) (2026-03-18T18:10:37Z) - Pressure Reveals Character: Behavioural Alignment Evaluation at Depth [3.634215320925722]
正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。
我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。
トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
論文 参考訳(メタデータ) (2026-02-24T11:52:17Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。