論文の概要: Mitigating Open-Vocabulary Caption Hallucinations
- arxiv url: http://arxiv.org/abs/2312.03631v2
- Date: Wed, 21 Feb 2024 15:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:09:06.999145
- Title: Mitigating Open-Vocabulary Caption Hallucinations
- Title(参考訳): Open-Vocabulary Caption Hallucinations の誤用
- Authors: Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar
Averbuch-Elor
- Abstract要約: オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
当社のOpenCHAIRベンチマークでは,生成基盤モデルを用いて,開語彙キャプションの幻覚を評価する。
強化学習の進歩を生かしたMOCHaを提案する。
- 参考スコア(独自算出の注目度): 36.43428388918294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent years have seen rapid progress in image-conditioned text
generation, image captioning still suffers from the fundamental issue of
hallucinations, namely, the generation of spurious details that cannot be
inferred from the given image. Existing methods largely use closed-vocabulary
object lists to mitigate or evaluate hallucinations in image captioning,
ignoring most types of hallucinations that occur in practice. To this end, we
propose a framework for addressing hallucinations in image captioning in the
open-vocabulary setting, including quantifying their presence and optimizing to
mitigate such hallucinations. Our OpenCHAIR benchmark leverages generative
foundation models to evaluate open-vocabulary caption hallucinations,
surpassing the popular CHAIR benchmark in both diversity and accuracy. To
mitigate open-vocabulary hallucinations at the sequence level, we propose
MOCHa, an approach harnessing advancements in reinforcement learning. Our
multi-objective reward function explicitly targets the trade-off between
fidelity and adequacy in generations without requiring any strong supervision.
MOCHa improves a large variety of image captioning models, as captured by our
OpenCHAIR benchmark and other existing metrics. We will release our code and
models.
- Abstract(参考訳): 近年,イメージコンディショルドテキスト生成が急速に進展しているが,画像キャプションは依然として幻覚の根本的な問題,すなわち与えられた画像から推測できないスプリアス詳細の生成に苦しめられている。
既存の方法は、画像キャプションにおける幻覚を緩和または評価するために、主に閉語彙オブジェクトリストを使用しており、実際に発生するほとんどの種類の幻覚を無視している。
この目的のために,開語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案し,その存在を定量化し,その幻覚を緩和する。
弊社のOpenCHAIRベンチマークは、生成基礎モデルを利用して、オープン語彙キャプション幻覚の評価を行い、CHAIRベンチマークを多様性と精度の両方で上回っている。
開語彙の幻覚をシーケンスレベルで緩和するために,強化学習の進歩を生かしたMOCHaを提案する。
当社の多目的報酬機能は,厳格な監督を必要とせずに,世代間の忠実性と妥当性のトレードオフを明示的に目標としています。
MOCHaは、OpenCHAIRベンチマークやその他の既存のメトリクスによってキャプチャされるように、さまざまなイメージキャプションモデルを改善します。
コードとモデルをリリースします。
関連論文リスト
- In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z) - Seeing is Believing: Mitigating Hallucination in Large Vision-Language
Models via CLIP-Guided Decoding [41.37610782241758]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文 参考訳(メタデータ) (2024-02-23T12:57:16Z) - EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models [28.871461053464362]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文 参考訳(メタデータ) (2024-02-15T08:58:03Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Let there be a clock on the beach: Reducing Object Hallucination in
Image Captioning [12.354076490479516]
画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。
この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。
本稿では,新たなトレーニングデータやモデルサイズの増大を必要としない文に対する,シンプルで効率的な3つのトレーニング拡張手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T20:25:22Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。