論文の概要: Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation
- arxiv url: http://arxiv.org/abs/2602.15383v1
- Date: Tue, 17 Feb 2026 06:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.998986
- Title: Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation
- Title(参考訳): ブリッジング・デイ・アンド・ナイト:未完成画像翻訳におけるターゲットクラスの幻覚抑制
- Authors: Shuwei Li, Lei Tan, Robby T. Tan,
- Abstract要約: 画像翻訳は、外見が大きく変化し、ピクセルレベルの直接監督が欠如しているため、日々の映像翻訳は困難である。
既存の手法では、交通標識や車両などの対象クラスからのオブジェクトや人為的な光の効果が誤って合成されるセマンティック幻覚がしばしば導入されている。
本研究では,未完成翻訳におけるターゲットクラス特徴の幻覚を検知し,抑制する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.38870850999494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Day-to-night unpaired image translation is important to downstream tasks but remains challenging due to large appearance shifts and the lack of direct pixel-level supervision. Existing methods often introduce semantic hallucinations, where objects from target classes such as traffic signs and vehicles, as well as man-made light effects, are incorrectly synthesized. These hallucinations significantly degrade downstream performance. We propose a novel framework that detects and suppresses hallucinations of target-class features during unpaired translation. To detect hallucination, we design a dual-head discriminator that additionally performs semantic segmentation to identify hallucinated content in background regions. To suppress these hallucinations, we introduce class-specific prototypes, constructed by aggregating features of annotated target-domain objects, which act as semantic anchors for each class. Built upon a Schrodinger Bridge-based translation model, our framework performs iterative refinement, where detected hallucination features are explicitly pushed away from class prototypes in feature space, thus preserving object semantics across the translation trajectory.Experiments show that our method outperforms existing approaches both qualitatively and quantitatively. On the BDD100K dataset, it improves mAP by 15.5% for day-to-night domain adaptation, with a notable 31.7% gain for classes such as traffic lights that are prone to hallucinations.
- Abstract(参考訳): ダウンストリームタスクでは、日々の未ペア画像翻訳が重要であるが、大きな外観シフトとピクセルレベルの直接監督の欠如により、依然として困難である。
既存の手法では、交通標識や車両などの対象クラスからのオブジェクトや人為的な光の効果が誤って合成されるセマンティック幻覚がしばしば導入されている。
これらの幻覚は下流のパフォーマンスを著しく低下させる。
本研究では,未完成翻訳におけるターゲットクラス特徴の幻覚を検知し,抑制する新しいフレームワークを提案する。
幻覚を検出するために,背景領域の幻覚コンテンツを特定するために,意味的セグメンテーションを行うデュアルヘッド識別器を設計する。
これらの幻覚を抑えるために,各クラスに対して意味アンカーとして機能するアノテーション付きターゲットドメインオブジェクトの特徴を集約して構築したクラス固有のプロトタイプを紹介する。
シュロディンガーブリッジをベースとした翻訳モデルを用いて,検出された幻覚特徴が特徴空間のクラスプロトタイプから明示的に切り離され,翻訳軌跡全体にわたってオブジェクトの意味が保たれるような反復的改良を行う。実験により,本手法は定性的かつ定量的に既存手法よりも優れていることが示された。
BDD100Kデータセットでは、日々のドメイン適応でmAPを15.5%改善し、幻覚の傾向にある信号機のようなクラスでは31.7%向上している。
関連論文リスト
- Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。
人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。
文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文 参考訳(メタデータ) (2025-07-16T17:55:43Z) - When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [75.57997630182136]
シーンテキスト領域に着目した大規模マルチモーダルモデルにおけるトランスフォーマー層は,意味幻覚を生成する傾向が低い。
本研究では,ZoomText と Grounded Layer Correction の2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
本手法は,意味幻覚を効果的に緩和するだけでなく,シーンテキストのスポッティングや理解のための公開ベンチマークの性能も向上する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。
それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。
本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:56:23Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。