論文の概要: Mitigating Open-Vocabulary Caption Hallucinations
- arxiv url: http://arxiv.org/abs/2312.03631v2
- Date: Wed, 21 Feb 2024 15:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:09:06.999145
- Title: Mitigating Open-Vocabulary Caption Hallucinations
- Title(参考訳): Open-Vocabulary Caption Hallucinations の誤用
- Authors: Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar
Averbuch-Elor
- Abstract要約: オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
当社のOpenCHAIRベンチマークでは,生成基盤モデルを用いて,開語彙キャプションの幻覚を評価する。
強化学習の進歩を生かしたMOCHaを提案する。
- 参考スコア(独自算出の注目度): 36.43428388918294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent years have seen rapid progress in image-conditioned text
generation, image captioning still suffers from the fundamental issue of
hallucinations, namely, the generation of spurious details that cannot be
inferred from the given image. Existing methods largely use closed-vocabulary
object lists to mitigate or evaluate hallucinations in image captioning,
ignoring most types of hallucinations that occur in practice. To this end, we
propose a framework for addressing hallucinations in image captioning in the
open-vocabulary setting, including quantifying their presence and optimizing to
mitigate such hallucinations. Our OpenCHAIR benchmark leverages generative
foundation models to evaluate open-vocabulary caption hallucinations,
surpassing the popular CHAIR benchmark in both diversity and accuracy. To
mitigate open-vocabulary hallucinations at the sequence level, we propose
MOCHa, an approach harnessing advancements in reinforcement learning. Our
multi-objective reward function explicitly targets the trade-off between
fidelity and adequacy in generations without requiring any strong supervision.
MOCHa improves a large variety of image captioning models, as captured by our
OpenCHAIR benchmark and other existing metrics. We will release our code and
models.
- Abstract(参考訳): 近年,イメージコンディショルドテキスト生成が急速に進展しているが,画像キャプションは依然として幻覚の根本的な問題,すなわち与えられた画像から推測できないスプリアス詳細の生成に苦しめられている。
既存の方法は、画像キャプションにおける幻覚を緩和または評価するために、主に閉語彙オブジェクトリストを使用しており、実際に発生するほとんどの種類の幻覚を無視している。
この目的のために,開語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案し,その存在を定量化し,その幻覚を緩和する。
弊社のOpenCHAIRベンチマークは、生成基礎モデルを利用して、オープン語彙キャプション幻覚の評価を行い、CHAIRベンチマークを多様性と精度の両方で上回っている。
開語彙の幻覚をシーケンスレベルで緩和するために,強化学習の進歩を生かしたMOCHaを提案する。
当社の多目的報酬機能は,厳格な監督を必要とせずに,世代間の忠実性と妥当性のトレードオフを明示的に目標としています。
MOCHaは、OpenCHAIRベンチマークやその他の既存のメトリクスによってキャプチャされるように、さまざまなイメージキャプションモデルを改善します。
コードとモデルをリリースします。
関連論文リスト
- HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:36Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models [27.679307570206937]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文 参考訳(メタデータ) (2024-02-15T08:58:03Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Let there be a clock on the beach: Reducing Object Hallucination in
Image Captioning [12.354076490479516]
画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。
この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。
本稿では,新たなトレーニングデータやモデルサイズの増大を必要としない文に対する,シンプルで効率的な3つのトレーニング拡張手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T20:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。