論文の概要: Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck
- arxiv url: http://arxiv.org/abs/2505.24840v1
- Date: Fri, 30 May 2025 17:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.10491
- Title: Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck
- Title(参考訳): 視覚的LLMは階層的な視覚的理解が苦手、LLMはボットネック
- Authors: Yuwen Tan, Yuan Qing, Boqing Gong,
- Abstract要約: 本稿では,現在最先端の大規模言語モデル (LLM) の多くは視覚世界に関する階層的な知識を欠いていることを明らかにした。
6つの画像データセットと4つの画像データセットから構築された約100万の視覚的質問応答(VQA)タスクを使用して、これらの結果に到達する。
- 参考スコア(独自算出の注目度): 26.36276160242456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reveals that many state-of-the-art large language models (LLMs) lack hierarchical knowledge about our visual world, unaware of even well-established biology taxonomies. This shortcoming makes LLMs a bottleneck for vision LLMs' hierarchical visual understanding (e.g., recognizing Anemone Fish but not Vertebrate). We arrive at these findings using about one million four-choice visual question answering (VQA) tasks constructed from six taxonomies and four image datasets. Interestingly, finetuning a vision LLM using our VQA tasks reaffirms LLMs' bottleneck effect to some extent because the VQA tasks improve the LLM's hierarchical consistency more than the vision LLM's. We conjecture that one cannot make vision LLMs understand visual concepts fully hierarchical until LLMs possess corresponding taxonomy knowledge.
- Abstract(参考訳): 本稿は,多くの最先端の大規模言語モデル (LLM) が我々の視覚世界に関する階層的な知識を欠いていることを明らかにする。
この欠点は、LLMが視覚的LLMの階層的な視覚的理解のボトルネックとなる(例えば、Anemone Fishは認識するがVertebrateは認識しない)。
6つの分類群と4つの画像データセットから構築された約100万の視覚的質問応答(VQA)タスクを使用して、これらの結果に到達する。
興味深いことに、我々のVQAタスクを用いたビジョンLLMの微調整は、VQAタスクがビジョンLLMよりもLLMの階層的一貫性を向上するため、LLMのボトルネック効果をある程度再確認する。
LLMが対応する分類知識を持つまで、視覚的概念を完全に階層的に理解することはできないと推測する。
関連論文リスト
- Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study [10.051572826948762]
大規模モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。
我々は、記述論理(DL-Lite)を理解するLLMの能力を実証的に分析する。
LLMは概念と役割の形式的構文とモデル理論的意味論を理解する。
論文 参考訳(メタデータ) (2024-06-25T13:16:34Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? [24.931467926497152]
Head-to-Tailは、ヘッド、トーソ、テールファクトに関する18Kの質問対で構成されるベンチマークである。
既存のLSMは、特に胴体と尾部の実体の事実において、事実知識の把握の観点からはまだ完璧ではないことを示す。
論文 参考訳(メタデータ) (2023-08-20T05:31:03Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。