論文の概要: LanP: Rethinking the Impact of Language Priors in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.12359v1
- Date: Mon, 17 Feb 2025 22:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:16.155707
- Title: LanP: Rethinking the Impact of Language Priors in Large Vision-Language Models
- Title(参考訳): LanP: 大規模視覚言語モデルにおける言語優先の影響を再考する
- Authors: Zongyu Wu, Yuwei Niu, Hongcheng Gao, Minhua Lin, Zhiwei Zhang, Zhifang Zhang, Qi Shi, Yilong Wang, Sike Fu, Junjie Xu, Junjie Ao, Enyan Dai, Lei Feng, Xiang Zhang, Suhang Wang,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを示している。
LVLMは幻覚に悩まされ、現実の世界での採用を妨げる。
LVLMにおける言語優先の影響を再考するために,LanPというベンチマークを提案する。
- 参考スコア(独自算出の注目度): 35.04856483428639
- License:
- Abstract: Large Vision-Language Models (LVLMs) have shown impressive performance in various tasks. However, LVLMs suffer from hallucination, which hinders their adoption in the real world. Existing studies emphasized that the strong language priors of LVLMs can overpower visual information, causing hallucinations. However, the positive role of language priors is the key to a powerful LVLM. If the language priors are too weak, LVLMs will struggle to leverage rich parameter knowledge and instruction understanding abilities to complete tasks in challenging visual scenarios where visual information alone is insufficient. Therefore, we propose a benchmark called LanP to rethink the impact of Language Priors in LVLMs. It is designed to investigate how strong language priors are in current LVLMs. LanP consists of 170 images and 340 corresponding well-designed questions. Extensive experiments on 25 popular LVLMs reveal that many LVLMs' language priors are not strong enough to effectively aid question answering when objects are partially hidden. Many models, including GPT-4 Turbo, exhibit an accuracy below 0.5 in such a scenario.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、LVLMは幻覚に悩まされ、現実の世界での採用を妨げる。
既存の研究では、LVLMの強い言語が視覚情報を超越し、幻覚を引き起こすことが強調されている。
しかし、言語事前の肯定的な役割は、強力なLVLMの鍵である。
言語事前が弱すぎると、LVLMは豊富なパラメータ知識と命令理解能力を活用して、視覚情報だけでは不十分な視覚的なシナリオでタスクを完了させるのに苦労する。
そこで我々はLanPというベンチマークを提案し,LVLMにおける言語優先の影響を再考する。
現在のLVLMにおいて、言語がいかに強いかを調べるために設計されている。
LanPは170のイメージと340の適切な設計された質問で構成されている。
25のLVLMの大規模な実験により、多くのLVLMの言語は、オブジェクトが部分的に隠されているときの質問応答を効果的に支援するのに十分なほど強くないことが明らかになった。
GPT-4 Turboを含む多くのモデルは、そのようなシナリオで0.5未満の精度を示す。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models [28.716852515539497]
本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-03T03:42:56Z) - LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。
私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文 参考訳(メタデータ) (2024-07-29T01:21:11Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。