論文の概要: ALOHa: A New Measure for Hallucination in Captioning Models
- arxiv url: http://arxiv.org/abs/2404.02904v1
- Date: Wed, 3 Apr 2024 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:40:30.914363
- Title: ALOHa: A New Measure for Hallucination in Captioning Models
- Title(参考訳): ALOHa: カプセル化モデルにおける幻覚の新しい尺度
- Authors: Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell,
- Abstract要約: 既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
- 参考スコア(独自算出の注目度): 61.007542765171586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prominent metric for object hallucination, CHAIR, is limited to a fixed set of MS COCO objects and synonyms. In this work, we propose a modernized open-vocabulary metric, ALOHa, which leverages large language models (LLMs) to measure object hallucinations. Specifically, we use an LLM to extract groundable objects from a candidate caption, measure their semantic similarity to reference objects from captions and object detections, and use Hungarian matching to produce a final hallucination score. We show that ALOHa correctly identifies 13.6% more hallucinated objects than CHAIR on HAT, a new gold-standard subset of MS COCO Captions annotated for hallucinations, and 30.8% more on nocaps, where objects extend beyond MS COCO categories. Our code is available at https://davidmchan.github.io/aloha/.
- Abstract(参考訳): 視覚的記述のためのマルチモーダル事前訓練の最近の進歩にもかかわらず、最先端のモデルは、シーンに存在しない幻覚のようなエラーを含むキャプションを生成する。
既存の顕著な幻覚の指標であるCHAIRは、MS COCOオブジェクトと同義語の固定セットに限られている。
そこで本研究では,大規模言語モデル(LLM)を利用して物体の幻覚を計測するオープン語彙計量ALOHaを提案する。
具体的には、LLMを用いて、候補キャプションから接地可能なオブジェクトを抽出し、キャプションやオブジェクト検出から参照オブジェクトとそれらの意味的類似性を計測し、ハンガリーマッチングを用いて最終幻覚スコアを生成する。
ALOHaは、HAT上のCHAIRよりも13.6%多くの幻覚オブジェクトを正しく識別し、MS COCOキャプションの金標準サブセットとして、ノーキャップ上で30.8%のオブジェクトがMS COCOカテゴリを超えて拡張されていることを示す。
私たちのコードはhttps://davidmchan.github.io/aloha/で公開されています。
関連論文リスト
- Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models [36.98580310654515]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Mitigating Fine-Grained Hallucination by Fine-Tuning Large
Vision-Language Models with Caption Rewrites [18.640459366439917]
このフレームワークは,ChatGPTを用いた字幕の書き直しと,書き直された字幕上の命令調整されたLVLMの微調整という2つのコンポーネントから構成される。
実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。
論文 参考訳(メタデータ) (2023-12-04T07:43:02Z) - HallE-Control: Controlling Object Hallucination in Large Multimodal Models [80.03697683629035]
詳細な字幕作成のための GPT-4 支援評価手法である $textitCCEval$ を導入する。
LMMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。
LLaVA$_7B$に比べて幻覚は44%減少し,対象範囲を維持できる。
論文 参考訳(メタデータ) (2023-10-03T04:01:27Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。