論文の概要: LLMs Can Check Their Own Results to Mitigate Hallucinations in Traffic Understanding Tasks
- arxiv url: http://arxiv.org/abs/2409.12580v1
- Date: Thu, 19 Sep 2024 09:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:19:13.545267
- Title: LLMs Can Check Their Own Results to Mitigate Hallucinations in Traffic Understanding Tasks
- Title(参考訳): LLMは、交通理解タスクにおける幻覚を軽減するために、独自の結果を確認することができる
- Authors: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger,
- Abstract要約: 本稿では,3つの最先端大規模言語モデル(LLM)による幻覚を見つけるためのSelfCheckGPTの採用について検討する。
以上の結果より, GPT-4oはLLaVAよりも忠実な画像キャプションを生成するのが得意である。
- 参考スコア(独自算出の注目度): 1.701722696403793
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's Large Language Models (LLMs) have showcased exemplary capabilities, ranging from simple text generation to advanced image processing. Such models are currently being explored for in-vehicle services such as supporting perception tasks in Advanced Driver Assistance Systems (ADAS) or Autonomous Driving (AD) systems, given the LLMs' capabilities to process multi-modal data. However, LLMs often generate nonsensical or unfaithful information, known as ``hallucinations'': a notable issue that needs to be mitigated. In this paper, we systematically explore the adoption of SelfCheckGPT to spot hallucinations by three state-of-the-art LLMs (GPT-4o, LLaVA, and Llama3) when analysing visual automotive data from two sources: Waymo Open Dataset, from the US, and PREPER CITY dataset, from Sweden. Our results show that GPT-4o is better at generating faithful image captions than LLaVA, whereas the former demonstrated leniency in mislabeling non-hallucinated content as hallucinations compared to the latter. Furthermore, the analysis of the performance metrics revealed that the dataset type (Waymo or PREPER CITY) did not significantly affect the quality of the captions or the effectiveness of hallucination detection. However, the models showed better performance rates over images captured during daytime, compared to during dawn, dusk or night. Overall, the results show that SelfCheckGPT and its adaptation can be used to filter hallucinations in generated traffic-related image captions for state-of-the-art LLMs.
- Abstract(参考訳): 今日のLarge Language Models (LLM)は、単純なテキスト生成から高度な画像処理まで、模範的な機能を示している。
先進運転支援システム(ADAS)や自律運転支援システム(AD)システムにおける認識タスクのサポートなど、LLMがマルチモーダルデータを処理できることを考えると、車内サービスのためにこのようなモデルが現在検討されている。
しかし LLM は、しばしば ''hallucinations'' として知られる、非感覚的または不誠実な情報を生成する。
本稿では、スウェーデンのWaymo Open DatasetとPrePER CITYデータセットの2つのソースから視覚的な自動車データを分析する際に、3つの最先端LCM(GPT-4o, LLaVA, Llama3)による幻覚を見つけるためのSelfCheckGPTの採用を体系的に検討する。
以上の結果より, GPT-4oはLLaVAよりも忠実な画像キャプションを生成するのが得意である。
さらに, 実験結果から, データセット型 (Waymo または PrePER CITY) は, キャプションの品質や幻覚検出の有効性に有意な影響を与えていないことが明らかとなった。
しかし、これらのモデルでは、夜明け、夕暮れ、夜間に比べて、昼間に撮影された画像よりもパフォーマンスが向上した。
以上の結果から,SlfCheckGPTとその適応は,交通関連画像キャプション生成における幻覚のフィルタリングに有効であることが示唆された。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks [1.701722696403793]
マルチモーダル大言語モデル(LLM)は、テキスト、画像、オーディオ、その他のデータ型を処理できる。
本稿では,LLMの幻覚検出戦略を体系的に評価した。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
論文 参考訳(メタデータ) (2024-07-18T20:58:03Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Large Language Models are Null-Shot Learners [1.424005404275135]
Null-shot promptingは大規模言語モデル(LLM)における幻覚を悪用する
通常のゼロショットプロンプトと比較して,幻覚を利用してタスクの実行性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-01-16T10:53:11Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning [8.217445461627797]
VLM(Vision-Language Models)は、下流のアプリケーションで、例えば存在しないエンティティをキャプションするときに、誤った知覚情報を生成する。
幻覚現象に対処するため,CIEM(Contrastive Instruction Evaluation Method)とCIT(Contrastive Instruction Tuning)を導入する。
既存のVLMに共通する幻覚問題,幻覚現象に対処する現在の指導訓練データセットの障害,およびCIEMおよび公開データセットよりもCIT調整VLMの方が優れていることを指摘する。
論文 参考訳(メタデータ) (2023-09-05T15:06:37Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。