論文の概要: Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images
- arxiv url: http://arxiv.org/abs/2506.07184v1
- Date: Sun, 08 Jun 2025 15:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.704034
- Title: Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images
- Title(参考訳): 時系列画像のための多モーダル大言語モデルにおける行動幻覚の緩和
- Authors: Liangliang You, Junchi Yao, Shu Yang, Guimin Hu, Lijie Hu, Di Wang,
- Abstract要約: SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
- 参考スコア(独自算出の注目度): 6.48620624181578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models excel at various tasks, they still suffer from hallucinations, which limit their reliability and scalability for broader domain applications. To address this issue, recent research mainly focuses on objective hallucination. However, for sequential images, besides objective hallucination, there is also behavioral hallucination, which is less studied. This work aims to fill in the gap. We first reveal that behavioral hallucinations mainly arise from two key factors: prior-driven bias and the snowball effect. Based on these observations, we introduce SHE (Sequence Hallucination Eradication), a lightweight, two-stage framework that (1) detects hallucinations via visual-textual alignment check using our proposed adaptive temporal window and (2) mitigates them via orthogonal projection onto the joint embedding space. We also propose a new metric (BEACH) to quantify behavioral hallucination severity. Empirical results on standard benchmarks demonstrate that SHE reduces behavioral hallucination by over 10% on BEACH while maintaining descriptive accuracy.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは様々なタスクで優れているが、それでも幻覚に悩まされ、より広範なドメインアプリケーションに対する信頼性とスケーラビリティが制限される。
この問題に対処するため、近年の研究では主に客観的幻覚に焦点を当てている。
しかし、連続画像においては、客観的幻覚以外に行動幻覚もあり、研究は少ない。
この仕事はギャップを埋めることを目的としています。
まず, 行動幻覚は主に, 偏見と雪玉効果の2つの要因から生じることを明らかにした。
これらの観測に基づき,(1)適応時間窓を用いた視覚的テキストアライメントチェックによる幻覚を検出する軽量な2段階のフレームワークであるSHE(Sequence Hallucination Eradication)を導入し,(2)関節埋め込み空間への直交投影による幻覚を緩和する。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
実験結果から,SHEはBEACH上での行動幻覚を10%以上低減し,記述精度を維持した。
関連論文リスト
- Beyond Facts: Evaluating Intent Hallucination in Large Language Models [13.315302240710164]
FAITHQAは20,068問題を含む意図幻覚の新しいベンチマークである。
我々は、最先端のモデルにおいても意図幻覚は一般的な問題であると考えている。
意図の幻覚を検出するための自動LLM生成評価指標であるCONSTRAINT SCOREを導入する。
論文 参考訳(メタデータ) (2025-06-06T21:10:55Z) - Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [6.838584336878126]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。
推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。
本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文 参考訳(メタデータ) (2025-05-22T09:00:57Z) - Valuable Hallucinations: Realizable Non-realistic Propositions [2.451326684641447]
本稿では,大規模言語モデル(LLM)における価値幻覚の形式的定義について紹介する。
特定の種類の幻覚が特定の文脈で提供できる潜在的な価値に焦点を当てる。
本稿では,Qwen2.5モデルとHaluQAデータセットを用いて,幻覚の制御と最適化を促進させるReActを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-16T12:59:11Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - On Early Detection of Hallucinations in Factual Question Answering [4.76359068115052]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
本研究では、モデル生成に関連するアーティファクトが、生成が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
以上の結果から,これらのアーティファクトの分布は,ハロゲン化世代と非ハロゲン化世代の違いが示唆された。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。