Fugu-MT 論文翻訳(概要): DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning

論文の概要: DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning

arxiv url: http://arxiv.org/abs/2409.19255v1
Date: Thu, 24 Oct 2024 11:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 00:18:22.576581
Title: DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning
Title（参考訳）: DENEB:画像キャプションのための幻覚ロバスト自動評価指標
Authors: Kazuki Matsuda, Yuiga Wada, Komei Sugiura,
Abstract要約: 本稿では,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。 DENEBを訓練するために,32,978枚の画像と人間の判断を組み合わせた多彩でバランスの取れた星雲データセットを構築した。 DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr 8058K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現している。
参考スコア（独自算出の注目度）: 1.3654846342364308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we address the challenge of developing automatic evaluation metrics for image captioning, with a particular focus on robustness against hallucinations. Existing metrics are often inadequate for handling hallucinations, primarily due to their limited ability to compare candidate captions with multifaceted reference captions. To address this shortcoming, we propose DENEB, a novel supervised automatic evaluation metric specifically robust against hallucinations. DENEB incorporates the Sim-Vec Transformer, a mechanism that processes multiple references simultaneously, thereby efficiently capturing the similarity between an image, a candidate caption, and reference captions. To train DENEB, we construct the diverse and balanced Nebula dataset comprising 32,978 images, paired with human judgments provided by 805 annotators. We demonstrated that DENEB achieves state-of-the-art performance among existing LLM-free metrics on the FOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, and PASCAL-50S datasets, validating its effectiveness and robustness against hallucinations.
Abstract（参考訳）: 本研究では,幻覚に対するロバスト性に着目し,画像キャプションの自動評価指標を開発することの課題に対処する。既存のメトリクスはしばしば幻覚を扱うのに不十分であり、主に候補のキャプションと多面的な参照キャプションを比較する能力に制限があるためである。この欠点に対処するために,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。 DENEBは、複数の参照を同時に処理し、画像、候補キャプション、参照キャプションの類似性を効率的に取得するメカニズムであるSim-Vec Transformerを組み込んでいる。 DENEBを訓練するために、我々は32,978個の画像からなる多彩でバランスの取れた星雲データセットを構築し、805個のアノテータによって提供される人間の判断と組み合わせた。 DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現し, 幻覚に対する有効性と堅牢性を検証した。

関連論文リスト

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。 DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。 DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文参考訳（メタデータ） (2025-03-10T22:53:56Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。 KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文参考訳（メタデータ） (2024-11-13T20:50:04Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。 Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文参考訳（メタデータ） (2021-06-29T12:27:05Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。