論文の概要: DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning
- arxiv url: http://arxiv.org/abs/2409.19255v1
- Date: Sat, 28 Sep 2024 06:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:56.414542
- Title: DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning
- Title(参考訳): DENEB:画像キャプションのための幻覚ロバスト自動評価指標
- Authors: Kazuki Matsuda, Yuiga Wada, Komei Sugiura,
- Abstract要約: 本稿では,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。
DENEBを訓練するために,32,978枚の画像と人間の判断を組み合わせた多彩でバランスの取れた星雲データセットを構築した。
DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr 8058K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現している。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License:
- Abstract: In this work, we address the challenge of developing automatic evaluation metrics for image captioning, with a particular focus on robustness against hallucinations. Existing metrics are often inadequate for handling hallucinations, primarily due to their limited ability to compare candidate captions with multifaceted reference captions. To address this shortcoming, we propose DENEB, a novel supervised automatic evaluation metric specifically robust against hallucinations. DENEB incorporates the Sim-Vec Transformer, a mechanism that processes multiple references simultaneously, thereby efficiently capturing the similarity between an image, a candidate caption, and reference captions. To train DENEB, we construct the diverse and balanced Nebula dataset comprising 32,978 images, paired with human judgments provided by 805 annotators. We demonstrated that DENEB achieves state-of-the-art performance among existing LLM-free metrics on the FOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, and PASCAL-50S datasets, validating its effectiveness and robustness against hallucinations.
- Abstract(参考訳): 本研究では,幻覚に対するロバスト性に着目し,画像キャプションの自動評価指標を開発することの課題に対処する。
既存のメトリクスはしばしば幻覚を扱うのに不十分であり、主に候補のキャプションと多面的な参照キャプションを比較する能力に制限があるためである。
この欠点に対処するために,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。
DENEBは、複数の参照を同時に処理し、画像、候補キャプション、参照キャプションの類似性を効率的に取得するメカニズムであるSim-Vec Transformerを組み込んでいる。
DENEBを訓練するために、我々は32,978個の画像からなる多彩でバランスの取れた星雲データセットを構築し、805個のアノテータによって提供される人間の判断と組み合わせた。
DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現し, 幻覚に対する有効性と堅牢性を検証した。
関連論文リスト
- Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。