Fugu-MT 論文翻訳(概要): ALOHa: A New Measure for Hallucination in Captioning Models

論文の概要: ALOHa: A New Measure for Hallucination in Captioning Models

arxiv url: http://arxiv.org/abs/2404.02904v1
Date: Wed, 3 Apr 2024 17:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 16:40:30.914363
Title: ALOHa: A New Measure for Hallucination in Captioning Models
Title（参考訳）: ALOHa: カプセル化モデルにおける幻覚の新しい尺度
Authors: Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell,
Abstract要約: 既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。 ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
参考スコア（独自算出の注目度）: 61.007542765171586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prominent metric for object hallucination, CHAIR, is limited to a fixed set of MS COCO objects and synonyms. In this work, we propose a modernized open-vocabulary metric, ALOHa, which leverages large language models (LLMs) to measure object hallucinations. Specifically, we use an LLM to extract groundable objects from a candidate caption, measure their semantic similarity to reference objects from captions and object detections, and use Hungarian matching to produce a final hallucination score. We show that ALOHa correctly identifies 13.6% more hallucinated objects than CHAIR on HAT, a new gold-standard subset of MS COCO Captions annotated for hallucinations, and 30.8% more on nocaps, where objects extend beyond MS COCO categories. Our code is available at https://davidmchan.github.io/aloha/.
Abstract（参考訳）: 視覚的記述のためのマルチモーダル事前訓練の最近の進歩にもかかわらず、最先端のモデルは、シーンに存在しない幻覚のようなエラーを含むキャプションを生成する。既存の顕著な幻覚の指標であるCHAIRは、MS COCOオブジェクトと同義語の固定セットに限られている。そこで本研究では,大規模言語モデル(LLM)を利用して物体の幻覚を計測するオープン語彙計量ALOHaを提案する。具体的には、LLMを用いて、候補キャプションから接地可能なオブジェクトを抽出し、キャプションやオブジェクト検出から参照オブジェクトとそれらの意味的類似性を計測し、ハンガリーマッチングを用いて最終幻覚スコアを生成する。 ALOHaは、HAT上のCHAIRよりも13.6%多くの幻覚オブジェクトを正しく識別し、MS COCOキャプションの金標準サブセットとして、ノーキャップ上で30.8%のオブジェクトがMS COCOカテゴリを超えて拡張されていることを示す。私たちのコードはhttps://davidmchan.github.io/aloha/で公開されています。

関連論文リスト

Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities [5.602853217226167]
大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。 CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
論文参考訳（メタデータ） (2025-01-25T03:03:18Z)
Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models [51.50892380172863]
その結果,ほとんどのMLLMは重度の動詞幻覚に悩まされていることがわかった。本稿では,動詞の幻覚を軽減するために,動詞の知識に基づく新しいチューニング手法を提案する。
論文参考訳（メタデータ） (2024-12-06T10:53:47Z)
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文参考訳（メタデータ） (2024-10-04T06:24:49Z)
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文参考訳（メタデータ） (2024-06-20T16:56:11Z)
Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文参考訳（メタデータ） (2024-05-28T23:36:00Z)
HallE-Control: Controlling Object Hallucination in Large Multimodal Models [80.03697683629035]
詳細な字幕作成のための GPT-4 支援評価手法である $textitCCEval$ を導入する。 LMMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。 LLaVA$_7B$に比べて幻覚は44%減少し,対象範囲を維持できる。
論文参考訳（メタデータ） (2023-10-03T04:01:27Z)
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。 LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文参考訳（メタデータ） (2023-10-01T18:10:53Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。