Fugu-MT 論文翻訳(概要): Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

論文の概要: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

arxiv url: http://arxiv.org/abs/2407.02352v2
Date: Tue, 29 Oct 2024 01:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.358138
Title: Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification
Title（参考訳）: Pelican: クレーム分解による視覚LLMの幻覚の修正と思考検証プログラム
Authors: Pritish Sahu, Karan Sikka, Ajay Divakaran,
Abstract要約: Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%～32%低下し,27%低下した。
参考スコア（独自算出の注目度）: 13.081342795985003
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Visual Language Models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose Pelican -- a novel framework designed to detect and mitigate hallucinations through claim verification. Pelican first decomposes the visual claim into a chain of sub-claims based on first-order predicates. These sub-claims consist of (predicate, question) pairs and can be conceptualized as nodes of a computational graph. We then use Program-of-Thought prompting to generate Python code for answering these questions through flexible composition of external tools. Pelican improves over prior work by introducing (1) intermediate variables for precise grounding of object instances, and (2) shared computation for answering the sub-question to enable adaptive corrections and inconsistency identification. We finally use reasoning abilities of LLMs to verify the correctness of the claim by considering the consistency and confidence of the (question, answer) pairs from each sub-claim. Our experiments reveal a drop in hallucination rate by ~ 8% - 32% across various baseline LVLMs and a 27% drop compared to approaches proposed for hallucination mitigation on MMHal-Bench. Results on two other benchmarks further corroborate our results.
Abstract（参考訳）: 大規模視覚言語モデル (LVLM) は、視覚的指示における幻覚に苦慮し、その信頼性と現実の応用性を制限する。クレーム検証により幻覚を検知・緩和する新しいフレームワークであるPelicanを提案する。ペリカンはまず、視覚的クレームを一階述語に基づくサブクレームの連鎖に分解する。これらのサブステートメントは(述語、疑問)ペアで構成され、計算グラフのノードとして概念化することができる。次に、Program-of-Thoughtプロンプトを使用して、外部ツールの柔軟な構成を通じて、これらの質問に答えるPythonコードを生成します。 Pelicanは、(1)オブジェクトインスタンスの正確なグラウンド化のための中間変数を導入し、(2)サブクエストに応答する共有計算を導入し、適応的な修正と矛盾の同定を可能にすることで、先行作業を改善する。最終的に LLM の推論能力を用いて,各サブフレームからの (クエスト, 回答) ペアの一貫性と信頼性を考慮し,クレームの正当性を検証する。実験の結果,MMHal-Benchの幻覚緩和法と比較して,各種LVLMの幻覚率を約8%～32%低下させ,27%低下させた。他の2つのベンチマークの結果は、我々の結果をさらに裏付ける。

関連論文リスト

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception [28.351994916635423]
反実的前提問題(CPQ)の解決におけるLVLMの脆弱性について論じる。両種類の幻覚を緩和するための統合的・総合的なデータ駆動後学習フレームワークであるAntidoteを紹介した。我々は,LVLMがCPQを正しく処理し,実応答を生成する能力を評価するための新しいベンチマーク「CP-Bench」を構築した。
論文参考訳（メタデータ） (2025-04-29T07:05:24Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。 GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文参考訳（メタデータ） (2025-02-09T14:11:30Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
Dehallucinating Parallel Context Extension for Retrieval-Augmented Generation [42.76770979205655]
大規模言語モデル(LLM)は、検索強化世代(RAG)の統合にもかかわらず、幻覚情報を生成することができる本稿では,文脈認識型ネガティブトレーニングと情報校正アグリゲーションによる幻覚問題を緩和するDePaCを提案する。
論文参考訳（メタデータ） (2024-12-19T14:37:11Z)
DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations [14.025772159366184]
大きな言語モデル(LLM)は、しばしば幻覚を起こし、不信または事実的に誤った出力を生成する。近年の研究では、検索ヘッドとして知られるTransformerアーキテクチャ内の特定の注意点が特定されている。本稿では,新しい学習自由な復号法であるRetrieval Heads (DeCoRe) を用いた復号法を提案する。
論文参考訳（メタデータ） (2024-10-24T15:44:33Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。次に,FG-PRM(FG-PRM)を提案する。
論文参考訳（メタデータ） (2024-10-08T19:25:26Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-17T13:21:23Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-02-18T15:28:39Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。