論文の概要: Beyond vividness: Content analysis of induced hallucinations reveals the hidden structure of individual differences in visual imagery
- arxiv url: http://arxiv.org/abs/2507.09011v1
- Date: Fri, 11 Jul 2025 20:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.075552
- Title: Beyond vividness: Content analysis of induced hallucinations reveals the hidden structure of individual differences in visual imagery
- Title(参考訳): 視覚性を超えて:幻覚のコンテンツ分析は、視覚的イメージの個人差の隠れた構造を明らかにする
- Authors: Ana Chkhaidze, Reshanne R. Reeder, Connor Gag, Anastasia Kiyonaga, Seana Coulson,
- Abstract要約: 4000人以上の参加者の幻覚の自由テキスト記述を分析した。
強いイメージは複雑で自然主義的な内容を示し、弱いイメージは単純な幾何学的パターンを報告した。
これらの知見は、早期視覚領域と画像スペクトルに関連する高次領域との協調の個人差を反映している可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A rapidly alternating red and black display known as Ganzflicker induces visual hallucinations that reflect the generative capacity of the visual system. Recent proposals regarding the imagery spectrum, that is, differences in the visual system of individuals with absent imagery, typical imagery, and vivid imagery, suggest these differences should impact the complexity of other internally generated visual experiences. Here, we used tools from natural language processing to analyze free-text descriptions of hallucinations from over 4,000 participants, asking whether people with different imagery phenotypes see different things in their mind's eye during Ganzflicker-induced hallucinations. Strong imagers described complex, naturalistic content, while weak imagers reported simple geometric patterns. Embeddings from vision language models better captured these differences than text-only language models, and participants with stronger imagery used language with richer sensorimotor associations. These findings may reflect individual variation in coordination between early visual areas and higher-order regions relevant for the imagery spectrum.
- Abstract(参考訳): ガンズフリッカーとして知られる急速に変化する赤と黒のディスプレイは、視覚系の生成能力を反映した視覚幻覚を誘導する。
画像スペクトルに関する最近の提案は、欠落した画像、典型的な画像、鮮明な画像の視覚システムの違いは、これらの違いが他の内部的に生成された視覚体験の複雑さに影響を与えることを示唆している。
ここでは、自然言語処理のツールを用いて、4000人以上の参加者の幻覚のフリーテキスト記述を分析し、ガンズフリッカー誘発幻覚の間、異なるイメージ表現型を持つ人々が心の目に異なるものを見るかどうかを問う。
強いイメージは複雑で自然主義的な内容を示し、弱いイメージは単純な幾何学的パターンを報告した。
視覚言語モデルの埋め込みは、テキストのみの言語モデルよりもこれらの違いをよりよく捉え、より強力なイメージを持つ参加者は、よりリッチな感覚モチーフ関連を持つ言語を使用した。
これらの知見は、早期視覚領域と画像スペクトルに関連する高次領域との協調の個人差を反映している可能性がある。
関連論文リスト
- SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。
我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-05T07:41:25Z) - MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models [73.20126092411776]
マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行う。
複数の画像に対してオブジェクト関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。
MIHBenchは、Multi-Image Object Existence Hallucination、Multi-Image Object Count Hallucination、Object Identity Consistency Hallucinationの3つのコアタスクから構成される。
論文 参考訳(メタデータ) (2025-08-01T15:49:29Z) - See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs [7.964168958699652]
本稿では,視覚中心の幻覚緩和フレームワークであるViHalluについて述べる。
ViHalluは、全体像構造を維持しながら、制御可能な視覚的変化を伴う視覚的変化画像を導入している。
実験により、ViHalluは幻覚の傾向を著しく低減しつつ、モデルのきめ細かい視覚的理解を効果的に強化することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:53:27Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。
Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文 参考訳(メタデータ) (2024-03-21T13:49:42Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Visually Dehallucinative Instruction Generation [0.8192907805418583]
本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。
提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-02-13T10:25:45Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。