論文の概要: SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem
- arxiv url: http://arxiv.org/abs/2602.09528v1
- Date: Tue, 10 Feb 2026 08:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.452248
- Title: SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem
- Title(参考訳): Schrömind: Schrödinger Bridge問題解決によるマルチモーダル大言語モデルにおける幻覚の緩和
- Authors: Ziqiang Shi, Rujie Liu, Shanshan Yu, Satoshi Munakata, Koichi Shirahata,
- Abstract要約: MLLMは画像を理解することができるが、正確なトークンシーケンスを生成するのに苦労している。
マイナーな摂動は、真理から不合理な状態へと注意を移すことができ、テキスト生成の自己回帰的な性質は、しばしばエラー訂正を妨げる。
我々はシュルディンガー橋問題を解くことで幻覚を減らす新しいフレームワークSchrMindを提案する。
- 参考スコア(独自算出の注目度): 10.753449690999277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have achieved significant success across various domains. However, their use in high-stakes fields like healthcare remains limited due to persistent hallucinations, where generated text contradicts or ignores visual input. We contend that MLLMs can comprehend images but struggle to produce accurate token sequences. Minor perturbations can shift attention from truthful to untruthful states, and the autoregressive nature of text generation often prevents error correction. To address this, we propose SchröMind-a novel framework reducing hallucinations via solving the Schrödinger bridge problem. It establishes a token-level mapping between hallucinatory and truthful activations with minimal transport cost through lightweight training, while preserving the model's original capabilities. Extensive experiments on the POPE and MME benchmarks demonstrate the superiority of Schrödinger, which achieves state-of-the-art performance while introducing only minimal computational overhead.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、様々な領域で大きな成功を収めている。
しかし、医療などの高度な分野での使用は、生成したテキストが視覚的な入力に矛盾したり無視する、持続的な幻覚のために制限されている。
MLLMは画像を理解することができるが、正確なトークンシーケンスを生成するのに苦労している。
マイナーな摂動は、真理から不合理な状態へと注意を移すことができ、テキスト生成の自己回帰的な性質は、しばしばエラー訂正を妨げる。
これを解決するために、シュレーディンガー橋問題を解くことによって幻覚を減らす新しいフレームワークSchröMindを提案する。
モデル本来の能力を維持しつつ、軽量なトレーニングを通じて最小限の輸送コストで幻覚と真理のアクティベーションの間のトークンレベルのマッピングを確立する。
POPE と MME ベンチマークの大規模な実験はシュレーディンガーの優位性を実証している。
関連論文リスト
- Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models [49.435669307386156]
MPR(Multi-stage Prompt Refinement)は、複数のステージにわたる不整形プロンプトを体系的に改善するためのフレームワークである。
MPRは、追加の文脈でプロンプトの明快さを反復的に強化し、最も関連する入力を優先順位付けするためにランク付けされた自己回帰機構を使用する。
幻覚ベンチマークの結果、MPRは原型と比較して85%以上の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-14T00:31:36Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [27.894293943142447]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
彼らは時に「幻覚」と呼ばれる現象である不正確で反事実的な出力を発生させる。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。