論文の概要: Semantic Similarity is a Spurious Measure of Comic Understanding: Lessons Learned from Hallucinations in a Benchmarking Experiment
- arxiv url: http://arxiv.org/abs/2603.01950v1
- Date: Mon, 02 Mar 2026 15:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.925904
- Title: Semantic Similarity is a Spurious Measure of Comic Understanding: Lessons Learned from Hallucinations in a Benchmarking Experiment
- Title(参考訳): 意味的類似性(Semantic similarity)は、滑稽な理解の希薄な尺度である: ベンチマーク実験における幻覚から学んだ教訓
- Authors: Christopher Driggers-Ellis, Nachiketh Tibrewal, Rohit Bogulla, Harsh Khanna, Sangpil Youm, Christan Grant, Bonnie Dorr,
- Abstract要約: 視覚障害者や視覚障害者が漫画や漫画にアクセスできるようにするシステムは,このコミュニティに新たなストーリーテリングの媒体を導入する。
生成的視覚言語モデル(VLM)は、画像の記述や漫画の理解において有望であるが、漫画理解に関する研究のほとんどはパネルレベルの分析に限られている。
本稿では,漫画解釈タスクにおけるVLM性能の予備ベンチマークを示す。
この過程で出現する幻覚を同定し、分類し、一般化された対象幻覚に分類する。
- 参考スコア(独自算出の注目度): 2.6189676401762365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A system that enables blind or visually impaired users to access comics/manga would introduce a new medium of storytelling to this community. However, no such system currently exists. Generative vision-language models (VLMs) have shown promise in describing images and understanding comics, but most research on comic understanding is limited to panel-level analysis. To fully support blind and visually impaired users, greater attention must be paid to page-level understanding and interpretation. In this work, we present a preliminary benchmark of VLM performance on comic interpretation tasks. We identify and categorize hallucinations that emerge during this process, organizing them into generalized object-hallucination taxonomies. We conclude with guidance on future research, emphasizing hallucination mitigation and improved data curation for comic interpretation.
- Abstract(参考訳): 視覚障害者や視覚障害者が漫画や漫画にアクセスできるようにするシステムは,このコミュニティに新たなストーリーテリングの媒体を導入する。
しかし、現在ではそのような制度は存在しない。
生成的視覚言語モデル(VLM)は、画像の記述や漫画の理解において有望であるが、漫画理解に関する研究のほとんどはパネルレベルの分析に限られている。
視覚障害者と視覚障害者を完全に支援するには、ページレベルの理解と解釈に注意を払わなければならない。
本稿では,漫画解釈タスクにおけるVLM性能の予備ベンチマークを示す。
この過程で出現する幻覚を同定し分類し、一般化された対人幻覚分類群に分類する。
今後の研究の指針として、幻覚の緩和を強調し、漫画解釈のためのデータキュレーションを改善した。
関連論文リスト
- VOPE: Revisiting Hallucination of Vision-Language Models in Voluntary Imagination Task [73.75049937317506]
本稿では,自発的想像課題におけるLVLMの幻覚を評価するために,自発的物体存在評価(VOPE)を導入する。
VOPEはリチェックベースの質問を行い、LVLMが想像対象の存在を自身の反応で解釈する方法を評価する。
モデル解釈と画像におけるオブジェクトの存在との間の一貫性は、モデルが応答を生成する際に幻覚を引き起こすかどうかを決定するために使用される。
論文 参考訳(メタデータ) (2025-11-17T14:32:06Z) - SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。
我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-05T07:41:25Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [75.57997630182136]
シーンテキスト領域に着目した大規模マルチモーダルモデルにおけるトランスフォーマー層は,意味幻覚を生成する傾向が低い。
本研究では,ZoomText と Grounded Layer Correction の2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
本手法は,意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークの性能も向上する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - HalCECE: A Framework for Explainable Hallucination Detection through Conceptual Counterfactuals in Image Captioning [5.130890556960832]
この研究は、広く使われている画像キャプターが示す幻覚現象の複雑さを掘り下げて、興味深いパターンを明らかにした。
採用された概念的反事実のバックボーンの決定論的かつ効率的な性質は、意味的に最小限の編集を提案することができる。
提案する幻覚検出フレームワークは,スタンドアローン数とは別に意味論的に意味のある編集を提供することにより,高い解釈が可能となる。
論文 参考訳(メタデータ) (2025-03-01T10:28:19Z) - Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。
我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。
画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文 参考訳(メタデータ) (2024-12-04T01:23:57Z) - Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。