論文の概要: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification
- arxiv url: http://arxiv.org/abs/2407.02352v2
- Date: Tue, 29 Oct 2024 01:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:16.402960
- Title: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification
- Title(参考訳): Pelican: クレーム分解による視覚LLMの幻覚の修正と思考検証プログラム
- Authors: Pritish Sahu, Karan Sikka, Ajay Divakaran,
- Abstract要約: Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%~32%低下し,27%低下した。
- 参考スコア(独自算出の注目度): 13.081342795985003
- License:
- Abstract: Large Visual Language Models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose Pelican -- a novel framework designed to detect and mitigate hallucinations through claim verification. Pelican first decomposes the visual claim into a chain of sub-claims based on first-order predicates. These sub-claims consist of (predicate, question) pairs and can be conceptualized as nodes of a computational graph. We then use Program-of-Thought prompting to generate Python code for answering these questions through flexible composition of external tools. Pelican improves over prior work by introducing (1) intermediate variables for precise grounding of object instances, and (2) shared computation for answering the sub-question to enable adaptive corrections and inconsistency identification. We finally use reasoning abilities of LLMs to verify the correctness of the claim by considering the consistency and confidence of the (question, answer) pairs from each sub-claim. Our experiments reveal a drop in hallucination rate by ~ 8% - 32% across various baseline LVLMs and a 27% drop compared to approaches proposed for hallucination mitigation on MMHal-Bench. Results on two other benchmarks further corroborate our results.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、視覚的指示における幻覚に苦慮し、その信頼性と現実の応用性を制限する。
クレーム検証により幻覚を検知・緩和する新しいフレームワークであるPelicanを提案する。
ペリカンはまず、視覚的クレームを一階述語に基づくサブクレームの連鎖に分解する。
これらのサブステートメントは(述語、疑問)ペアで構成され、計算グラフのノードとして概念化することができる。
次に、Program-of-Thoughtプロンプトを使用して、外部ツールの柔軟な構成を通じて、これらの質問に答えるPythonコードを生成します。
Pelicanは、(1)オブジェクトインスタンスの正確なグラウンド化のための中間変数を導入し、(2)サブクエストに応答する共有計算を導入し、適応的な修正と矛盾の同定を可能にすることで、先行作業を改善する。
最終的に LLM の推論能力を用いて,各サブフレームからの (クエスト, 回答) ペアの一貫性と信頼性を考慮し,クレームの正当性を検証する。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,各種LVLMの幻覚率を約8%~32%低下させ,27%低下させた。
他の2つのベンチマークの結果は、我々の結果をさらに裏付ける。
関連論文リスト
- DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations [14.025772159366184]
大きな言語モデル(LLM)は、しばしば幻覚を起こし、不信または事実的に誤った出力を生成する。
近年の研究では、検索ヘッドとして知られるTransformerアーキテクチャ内の特定の注意点が特定されている。
本稿では,新しい学習自由な復号法であるRetrieval Heads (DeCoRe) を用いた復号法を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:44:33Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。
数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。
次に,FG-PRM(FG-PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-08T19:25:26Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。