論文の概要: Understanding and Evaluating Hallucinations in 3D Visual Language Models
- arxiv url: http://arxiv.org/abs/2502.15888v1
- Date: Tue, 18 Feb 2025 07:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:28.805651
- Title: Understanding and Evaluating Hallucinations in 3D Visual Language Models
- Title(参考訳): 3次元視覚言語モデルにおける幻覚の理解と評価
- Authors: Ruiying Peng, Kaiyuan Li, Weichen Zhang, Chen Gao, Xinlei Chen, Yong Li,
- Abstract要約: 3D-LLMは、インテリジェンスとシーン理解の複雑なタスクに取り組むために提案されている。
幻覚の影響が大きい。
本研究は、3D-LLMにおける幻覚に関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 42.355169504378246
- License:
- Abstract: Recently, 3D-LLMs, which combine point-cloud encoders with large models, have been proposed to tackle complex tasks in embodied intelligence and scene understanding. In addition to showing promising results on 3D tasks, we found that they are significantly affected by hallucinations. For instance, they may generate objects that do not exist in the scene or produce incorrect relationships between objects. To investigate this issue, this work presents the first systematic study of hallucinations in 3D-LLMs. We begin by quickly evaluating hallucinations in several representative 3D-LLMs and reveal that they are all significantly affected by hallucinations. We then define hallucinations in 3D scenes and, through a detailed analysis of datasets, uncover the underlying causes of these hallucinations. We find three main causes: (1) Uneven frequency distribution of objects in the dataset. (2) Strong correlations between objects. (3) Limited diversity in object attributes. Additionally, we propose new evaluation metrics for hallucinations, including Random Point Cloud Pair and Opposite Question Evaluations, to assess whether the model generates responses based on visual information and aligns it with the text's meaning.
- Abstract(参考訳): 近年,ポイントクラウドエンコーダと大規模モデルを組み合わせた3D-LLMが,インテリジェンスとシーン理解の複雑なタスクに対処するために提案されている。
3次元課題において有望な結果を示すことに加え、幻覚の影響も大きいことが判明した。
例えば、シーンに存在しないオブジェクトを生成したり、オブジェクト間の誤った関係を生成できる。
本研究は, 3D-LLMの幻覚に関する最初の系統的研究である。
まず,複数の代表的3D-LLMの幻覚を迅速に評価し,幻覚に大きく影響していることを明らかにする。
次に、3Dシーンで幻覚を定義し、データセットの詳細な分析を通して、これらの幻覚の根本原因を明らかにする。
1) データセット内のオブジェクトの不均一な頻度分布。
2)物体間の強い相関関係
(3)対象属性の限定的な多様性。
さらに,ランダムポイントクラウドペアとオポポジット質問評価を含む幻覚評価のための新しい評価指標を提案し,そのモデルが視覚情報に基づいて応答を生成するかどうかを判断し,テキストの意味と一致させる。
関連論文リスト
- Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。
我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。
画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文 参考訳(メタデータ) (2024-12-04T01:23:57Z) - Multi-Object Hallucination in Vision-Language Models [28.135215173793785]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。
幻覚行動は、データ固有の要因、サリエンスと周波数、本質的なモデル行動に影響される。
論文 参考訳(メタデータ) (2024-07-08T17:59:57Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。