論文の概要: Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks
- arxiv url: http://arxiv.org/abs/2408.01433v1
- Date: Thu, 18 Jul 2024 20:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:08:48.003561
- Title: Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks
- Title(参考訳): 知覚課題におけるLLMの信頼性評価と向上
- Authors: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger,
- Abstract要約: マルチモーダル大言語モデル(LLM)は、テキスト、画像、オーディオ、その他のデータ型を処理できる。
本稿では,LLMの幻覚検出戦略を体系的に評価した。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
- 参考スコア(独自算出の注目度): 1.701722696403793
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's advanced driver assistance systems (ADAS), like adaptive cruise control or rear collision warning, are finding broader adoption across vehicle classes. Integrating such advanced, multimodal Large Language Models (LLMs) on board a vehicle, which are capable of processing text, images, audio, and other data types, may have the potential to greatly enhance passenger comfort. Yet, an LLM's hallucinations are still a major challenge to be addressed. In this paper, we systematically assessed potential hallucination detection strategies for such LLMs in the context of object detection in vision-based data on the example of pedestrian detection and localization. We evaluate three hallucination detection strategies applied to two state-of-the-art LLMs, the proprietary GPT-4V and the open LLaVA, on two datasets (Waymo/US and PREPER CITY/Sweden). Our results show that these LLMs can describe a traffic situation to an impressive level of detail but are still challenged for further analysis activities such as object localization. We evaluate and extend hallucination detection approaches when applying these LLMs to video sequences in the example of pedestrian detection. Our experiments show that, at the moment, the state-of-the-art proprietary LLM performs much better than the open LLM. Furthermore, consistency enhancement techniques based on voting, such as the Best-of-Three (BO3) method, do not effectively reduce hallucinations in LLMs that tend to exhibit high false negatives in detecting pedestrians. However, extending the hallucination detection by including information from the past helps to improve results.
- Abstract(参考訳): 今日の高度な運転支援システム(ADAS)は、適応的なクルーズ制御や後部衝突警告のように、車両クラスで広く採用されている。
このような高度な多モード大言語モデル(LLM)を、テキスト、画像、オーディオ、その他のデータ型を処理することができる車両に組み込むことで、乗客の快適性を大幅に向上させる可能性がある。
しかし、LLMの幻覚は依然として対処すべき大きな課題である。
本稿では,歩行者検出と位置推定の例に基づく視覚データを用いたオブジェクト検出の文脈において,そのようなLLMに対する潜在的幻覚検出戦略を体系的に評価した。
Waymo/US と PrePER CITY/Sweden の2つのデータセットを用いて,最先端の2つの LLM,プロプライエタリな GPT-4V とオープン LLaVA に適用した3つの幻覚検出戦略を評価した。
以上の結果から,これらのLCMは交通状況を細部まで詳細に記述できるが,オブジェクトの局所化などのさらなる分析活動には依然として課題が残されている。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
我々の実験は、現在最先端のLLMがオープンなLLMよりもはるかに優れた性能を発揮していることを示している。
さらに、Best-of-Three (BO3)法のような投票に基づく一貫性向上技術は、歩行者検出において高い偽陰性を示す傾向にあるLCMの幻覚を効果的に低減しない。
しかし、過去の情報を含むことによって幻覚検出を拡大することは、その結果を改善するのに役立つ。
関連論文リスト
- Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Can Knowledge Graphs Reduce Hallucinations in LLMs? : A Survey [11.471919529192048]
現代のLSMは幻覚を引き起こす傾向があり、主にモデル内の知識ギャップから生じる。
この限界に対処するため、研究者は外部知識を取り入れてLLMを強化するために様々な戦略を採用している。
論文 参考訳(メタデータ) (2023-11-14T05:21:57Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。