論文の概要: Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection
- arxiv url: http://arxiv.org/abs/2412.13817v1
- Date: Wed, 18 Dec 2024 13:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:01.316128
- Title: Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection
- Title(参考訳): Nullu: HalluSpaceプロジェクションによる大規模視覚言語モデルにおける物体の幻覚の緩和
- Authors: Le Yang, Ziwei Zheng, Boxu Chen, Zhengyu Zhao, Chenhao Lin, Chao Shen,
- Abstract要約: 大型視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる。
本稿では,安全でない部分空間に基づいてモデルの重みを効率よく編集する手法を提案する。
実験により,提案手法は,余分な推論コストを伴わずに複数のLVLMファミリー間でOHを効果的に緩和し,一般LVLMベンチマークで高い性能を示すことを示す。
- 参考スコア(独自算出の注目度): 12.049420092173616
- License:
- Abstract: Recent studies have shown that large vision-language models (LVLMs) often suffer from the issue of object hallucinations (OH). To mitigate this issue, we introduce an efficient method that edits the model weights based on an unsafe subspace, which we call HalluSpace in this paper. With truthful and hallucinated text prompts accompanying the visual content as inputs, the HalluSpace can be identified by extracting the hallucinated embedding features and removing the truthful representations in LVLMs. By orthogonalizing the model weights, input features will be projected into the Null space of the HalluSpace to reduce OH, based on which we name our method Nullu. We reveal that HalluSpaces generally contain statistical bias and unimodal priors of the large language models (LLMs) applied to build LVLMs, which have been shown as essential causes of OH in previous studies. Therefore, null space projection suppresses the LLMs' priors to filter out the hallucinated features, resulting in contextually accurate outputs. Experiments show that our method can effectively mitigate OH across different LVLM families without extra inference costs and also show strong performance in general LVLM benchmarks. Code is released at \url{https://github.com/Ziwei-Zheng/Nullu}.
- Abstract(参考訳): 近年の研究では、大きな視覚言語モデル(LVLM)が物体幻覚(OH)の問題にしばしば悩まされていることが示されている。
この問題を軽減するために,安全でない部分空間に基づいてモデル重みを編集する効率的な手法を提案する。
視覚内容が入力として付随する真正かつ幻覚的なテキストプロンプトにより、幻覚した埋め込み特徴を抽出し、LVLMの真正表現を除去することにより、HaluSpaceを識別することができる。
モデル重みの直交化により、入力機能はハルー空間のヌル空間に投影され、OHを減らす。
以上の結果から,HaluSpaces は LVLM 構築に応用された大規模言語モデル (LLMs) の統計的偏りや一様先行性を含むことが明らかとなった。
したがって、null空間プロジェクションはLLMの先行性を抑え、幻覚的特徴をフィルタリングし、文脈的に正確な出力をもたらす。
実験により,提案手法は,余分な推論コストを伴わずに複数のLVLMファミリー間でOHを効果的に緩和し,一般LVLMベンチマークで高い性能を示すことを示す。
コードは \url{https://github.com/Ziwei-Zheng/Nullu} で公開されている。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding [30.30494071474536]
HALCは、大規模視覚言語モデル(LVLM)における物体幻覚(OH)を軽減するために設計された新しい復号アルゴリズムである。
HALCは、ハエの幻覚トークンを補正するために(局所的に)堅牢なオートフォーカスグラウンド機構と、OHを著しく低減するために(球面的に)特殊なビームサーチアルゴリズムを統合している。
論文 参考訳(メタデータ) (2024-03-01T10:21:52Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Halo: Estimation and Reduction of Hallucinations in Open-Source Weak
Large Language Models [11.497989461290793]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
パラメータが少ないオープンソースのLCMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。
本稿では,より弱いオープンソース LLM の代表であるBLOOM 7B における幻覚の計測と低減に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-22T20:12:49Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。