Fugu-MT 論文翻訳(概要): Do Not Leave a Gap: Hallucination-Free Object Concealment in Vision-Language Models

論文の概要: Do Not Leave a Gap: Hallucination-Free Object Concealment in Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.15940v1
Date: Mon, 16 Mar 2026 21:46:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.004234
Title: Do Not Leave a Gap: Hallucination-Free Object Concealment in Vision-Language Models
Title（参考訳）: ギャップを残さない:視覚言語モデルにおける幻覚のない物体認識
Authors: Amira Guesmi, Muhammad Shafique,
Abstract要約: 以前のオブジェクトハイディング攻撃は、リージョン固有の表現の抑制やブロックに依存していた。我々は,新しいアンフバックグラウンドに一貫性のある物体隠蔽攻撃を提案する。本手法はトークンの構造と注意の流れを保ち,幻覚を誘発する表現的ヴォイドを避ける。
参考スコア（独自算出の注目度）: 3.8409038268900404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have recently shown remarkable capabilities in visual understanding and generation, but remain vulnerable to adversarial manipulations of visual content. Prior object-hiding attacks primarily rely on suppressing or blocking region-specific representations, often creating semantic gaps that inadvertently induce hallucination, where models invent plausible but incorrect objects. In this work, we demonstrate that hallucination arises not from object absence per se, but from semantic discontinuity introduced by such suppression-based attacks. We propose a new class of \emph{background-consistent object concealment} attacks, which hide target objects by re-encoding their visual representations to be statistically and semantically consistent with surrounding background regions. Crucially, our approach preserves token structure and attention flow, avoiding representational voids that trigger hallucination. We present a pixel-level optimization framework that enforces background-consistent re-encoding across multiple transformer layers while preserving global scene semantics. Extensive experiments on state-of-the-art vision-language models show that our method effectively conceals target objects while preserving up to $86\%$ of non-target objects and reducing grounded hallucination by up to $3\times$ compared to attention-suppression-based attacks.
Abstract（参考訳）: 視覚言語モデル(VLM)は最近、視覚的理解と生成において顕著な能力を示したが、視覚的コンテンツの敵対的な操作には弱いままである。従来のオブジェクトハイディング攻撃は、主に領域固有の表現を抑圧またはブロックすることに依存しており、しばしば必然的に幻覚を誘発する意味的ギャップを生じる。本研究では,このような抑制攻撃による意味的不連続性による幻覚の出現を実証する。本稿では,視覚的表現を統計的かつ意味的に周囲の背景領域と整合するように再エンコードすることで,対象オブジェクトを隠蔽する,新しいクラスであるemph{background-consistent object hiddenment}攻撃を提案する。重要なことは,本手法はトークンの構造と注意の流れを保ち,幻覚を誘発する表現的ヴォイドを避けることである。我々は,グローバルなシーンセマンティクスを保ちながら,複数のトランスフォーマー層にまたがる背景一貫性を再符号化するピクセルレベルの最適化フレームワークを提案する。最先端の視覚言語モデルに対する広範囲な実験により,本手法は対象対象を効果的に隠蔽し,対象対象以外の物体を最大8,6 %以上保存し,着地した幻覚を3 倍まで減らした。

関連論文リスト

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation [37.38870850999494]
画像翻訳は、外見が大きく変化し、ピクセルレベルの直接監督が欠如しているため、日々の映像翻訳は困難である。既存の手法では、交通標識や車両などの対象クラスからのオブジェクトや人為的な光の効果が誤って合成されるセマンティック幻覚がしばしば導入されている。本研究では,未完成翻訳におけるターゲットクラス特徴の幻覚を検知し,抑制する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-17T06:37:00Z)
What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文参考訳（メタデータ） (2025-08-03T03:11:48Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:56:23Z)
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting [7.813585591163111]
本研究は,物体幻覚における注意駆動視覚刺激の成功事例と失敗事例を分析した。背景コンテキストの保存は,物体幻覚の緩和に不可欠であることを示す。
論文参考訳（メタデータ） (2025-02-21T11:26:21Z)
Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities [5.602853217226167]
大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。 CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
論文参考訳（メタデータ） (2025-01-25T03:03:18Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
Spotlight Attention: Robust Object-Centric Learning With a Spatial Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文参考訳（メタデータ） (2023-05-31T04:35:50Z)
Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文参考訳（メタデータ） (2021-06-20T03:07:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。