論文の概要: Mitigating Diffusion Model Hallucinations with Dynamic Guidance
- arxiv url: http://arxiv.org/abs/2510.05356v1
- Date: Mon, 06 Oct 2025 20:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.972108
- Title: Mitigating Diffusion Model Hallucinations with Dynamic Guidance
- Title(参考訳): 動的誘導による拡散モデル幻覚の緩和
- Authors: Kostas Triaridis, Alexandros Graikos, Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras,
- Abstract要約: 拡散モデルはしばしば、真のデータ分布の支持外にある構造上の矛盾のある幻覚サンプルを生成する。
本稿では,事前に決められた方向に沿ってのみスコア関数を選択的に研ぎ澄まし,幻覚を緩和する動的誘導法を提案する。
私たちの知る限り、これはポストホックフィルタリングではなく、世代毎の幻覚に対処する最初のアプローチである。
- 参考スコア(独自算出の注目度): 75.90458880492054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, despite their impressive demos, often produce hallucinatory samples with structural inconsistencies that lie outside of the support of the true data distribution. Such hallucinations can be attributed to excessive smoothing between modes of the data distribution. However, semantic interpolations are often desirable and can lead to generation diversity, thus we believe a more nuanced solution is required. In this work, we introduce Dynamic Guidance, which tackles this issue. Dynamic Guidance mitigates hallucinations by selectively sharpening the score function only along the pre-determined directions known to cause artifacts, while preserving valid semantic variations. To our knowledge, this is the first approach that addresses hallucinations at generation time rather than through post-hoc filtering. Dynamic Guidance substantially reduces hallucinations on both controlled and natural image datasets, significantly outperforming baselines.
- Abstract(参考訳): 拡散モデルは、印象的なデモにもかかわらず、真のデータ分布のサポートの外側にある構造上の矛盾のある幻覚サンプルをしばしば生成する。
このような幻覚は、データ分布のモード間の過度な平滑化に起因する可能性がある。
しかし、意味補間が望ましい場合が多く、世代多様性につながる可能性があるため、より曖昧な解決が必要であると信じている。
本稿では、この問題に対処するDynamic Guidanceを紹介する。
Dynamic Guidanceは、アーチファクトを引き起こすことが知られている事前決定された方向に沿ってのみスコア関数を選択的にシャープし、有効なセマンティックなバリエーションを保持しながら幻覚を緩和する。
私たちの知る限り、これはポストホックフィルタリングではなく、世代毎の幻覚に対処する最初のアプローチである。
Dynamic Guidanceは、制御された画像データセットと自然な画像データセットの両方に対する幻覚を大幅に減らし、ベースラインを著しく上回る。
関連論文リスト
- DHI: Leveraging Diverse Hallucination Induction for Enhanced Contrastive Factuality Control in Large Language Models [33.2779808039684]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる不正確な情報や偽造情報を生成する。
DHI(Diverse Hallucination induction)は,事前の注釈付きデータに頼らずにより広い範囲の幻覚を生成する新しい学習フレームワークである。
DHIは、複数の幻覚ベンチマークにまたがる他のコントラストなデコーディングベースのアプローチよりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:55:41Z) - Counting Hallucinations in Diffusion Models [34.45858211220468]
拡散確率モデル(DPM)は、画像やビデオ合成などの生成タスクにおいて顕著な進歩を見せている。
彼らはしばしば、現実世界の知識と矛盾する幻覚的なサンプル(幻覚)を生産する。
その流行にもかかわらず、そのような幻覚を体系的に定量化するための実現可能な方法論の欠如は進歩を妨げている。
論文 参考訳(メタデータ) (2025-10-15T01:48:04Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models [15.521352228154159]
マルチモーダル大言語モデル(MLLM)は、明白な視覚的または事実的証拠と一致しない出力を生成する。
DCD(Decoupling Contrastive Decoding)という新しいフレームワークを提案する。
DCDは選好データセットにおける正と負のサンプルの学習を分離し、訓練はMLLM内で正と負のイメージ投影を分離する。
論文 参考訳(メタデータ) (2025-04-09T02:59:18Z) - Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data [4.636499986218049]
マルチモーダル言語モデルは、その出力に幻覚を示し、信頼性を制限できる。
本稿では, 崩壊した地盤データを作成することにより, これらのモデルのサンプル効率を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T20:11:00Z) - Mitigating Large Language Model Hallucination with Faithful Finetuning [46.33663932554782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
彼らは「幻覚」として知られる、流動的で不合理な反応を生み出す傾向にある
論文 参考訳(メタデータ) (2024-06-17T07:16:07Z) - Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.10226585746848]
拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-06-13T17:43:41Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。