論文の概要: Watermarking for Factuality: Guiding Vision-Language Models Toward Truth via Tri-layer Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2510.14304v1
- Date: Thu, 16 Oct 2025 04:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.728025
- Title: Watermarking for Factuality: Guiding Vision-Language Models Toward Truth via Tri-layer Contrastive Decoding
- Title(参考訳): ファクチュアリティのための透かし:三層コントラスト復号による視覚・言語モデルの真への誘導
- Authors: Kyungryul Back, Seongbeom Park, Milim Kim, Mincheol Kwon, SangHyeok Lee, Hyunyoung Lee, Junhee Cho, Seunghyun Park, Jinkyu Kim,
- Abstract要約: 本稿では,透かしを用いた3層コントラスト復号法を提案する。
本手法は,LVLMにおける幻覚の低減に有効な手法であることを示す。
- 参考スコア(独自算出の注目度): 18.411520204629284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have recently shown promising results on various multimodal tasks, even achieving human-comparable performance in certain cases. Nevertheless, LVLMs remain prone to hallucinations -- they often rely heavily on a single modality or memorize training data without properly grounding their outputs. To address this, we propose a training-free, tri-layer contrastive decoding with watermarking, which proceeds in three steps: (1) select a mature layer and an amateur layer among the decoding layers, (2) identify a pivot layer using a watermark-related question to assess whether the layer is visually well-grounded, and (3) apply tri-layer contrastive decoding to generate the final output. Experiments on public benchmarks such as POPE, MME and AMBER demonstrate that our method achieves state-of-the-art performance in reducing hallucinations in LVLMs and generates more visually grounded responses.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、最近、様々なマルチモーダルタスクにおいて有望な結果を示し、特定のケースにおいて人間に比較可能なパフォーマンスを実現している。
それでも、LVLMは幻覚の傾向が強く、出力を適切に基礎づけることなく、単一のモダリティやトレーニングデータの記憶に大きく依存することが多い。
そこで本研究では,(1) 成熟層とアマチュア層を選択すること,(2) 透かし関連質問を用いてピボット層を識別すること,(3) 最終出力を生成するために三層コントラストデコーディングを適用すること,の三層コントラストデコーディングを提案する。
POPE, MME, AMBERなどの公開ベンチマークを用いた実験により, LVLMの幻覚を低減し, より視覚的に接地された応答を生成できることを示す。
関連論文リスト
- How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。
ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文 参考訳(メタデータ) (2025-08-27T21:22:01Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。
トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。
本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文 参考訳(メタデータ) (2025-06-01T17:44:16Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [27.894293943142447]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
彼らは時に「幻覚」と呼ばれる現象である不正確で反事実的な出力を発生させる。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。
具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-04-07T19:00:45Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。