論文の概要: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification
- arxiv url: http://arxiv.org/abs/2407.02352v2
- Date: Tue, 29 Oct 2024 01:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:16.402960
- Title: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification
- Title(参考訳): Pelican: クレーム分解による視覚LLMの幻覚の修正と思考検証プログラム
- Authors: Pritish Sahu, Karan Sikka, Ajay Divakaran,
- Abstract要約: Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%~32%低下し,27%低下した。
- 参考スコア(独自算出の注目度): 13.081342795985003
- License:
- Abstract: Large Visual Language Models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose Pelican -- a novel framework designed to detect and mitigate hallucinations through claim verification. Pelican first decomposes the visual claim into a chain of sub-claims based on first-order predicates. These sub-claims consist of (predicate, question) pairs and can be conceptualized as nodes of a computational graph. We then use Program-of-Thought prompting to generate Python code for answering these questions through flexible composition of external tools. Pelican improves over prior work by introducing (1) intermediate variables for precise grounding of object instances, and (2) shared computation for answering the sub-question to enable adaptive corrections and inconsistency identification. We finally use reasoning abilities of LLMs to verify the correctness of the claim by considering the consistency and confidence of the (question, answer) pairs from each sub-claim. Our experiments reveal a drop in hallucination rate by ~ 8% - 32% across various baseline LVLMs and a 27% drop compared to approaches proposed for hallucination mitigation on MMHal-Bench. Results on two other benchmarks further corroborate our results.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、視覚的指示における幻覚に苦慮し、その信頼性と現実の応用性を制限する。
クレーム検証により幻覚を検知・緩和する新しいフレームワークであるPelicanを提案する。
ペリカンはまず、視覚的クレームを一階述語に基づくサブクレームの連鎖に分解する。
これらのサブステートメントは(述語、疑問)ペアで構成され、計算グラフのノードとして概念化することができる。
次に、Program-of-Thoughtプロンプトを使用して、外部ツールの柔軟な構成を通じて、これらの質問に答えるPythonコードを生成します。
Pelicanは、(1)オブジェクトインスタンスの正確なグラウンド化のための中間変数を導入し、(2)サブクエストに応答する共有計算を導入し、適応的な修正と矛盾の同定を可能にすることで、先行作業を改善する。
最終的に LLM の推論能力を用いて,各サブフレームからの (クエスト, 回答) ペアの一貫性と信頼性を考慮し,クレームの正当性を検証する。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,各種LVLMの幻覚率を約8%~32%低下させ,27%低下させた。
他の2つのベンチマークの結果は、我々の結果をさらに裏付ける。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Dehallucinating Parallel Context Extension for Retrieval-Augmented Generation [42.76770979205655]
大規模言語モデル(LLM)は、検索強化世代(RAG)の統合にもかかわらず、幻覚情報を生成することができる
本稿では,文脈認識型ネガティブトレーニングと情報校正アグリゲーションによる幻覚問題を緩和するDePaCを提案する。
論文 参考訳(メタデータ) (2024-12-19T14:37:11Z) - DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations [14.025772159366184]
大きな言語モデル(LLM)は、しばしば幻覚を起こし、不信または事実的に誤った出力を生成する。
近年の研究では、検索ヘッドとして知られるTransformerアーキテクチャ内の特定の注意点が特定されている。
本稿では,新しい学習自由な復号法であるRetrieval Heads (DeCoRe) を用いた復号法を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:44:33Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。
数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。
次に,FG-PRM(FG-PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-08T19:25:26Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。