論文の概要: Effectiveness Assessment of Recent Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.04306v1
- Date: Thu, 7 Mar 2024 08:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:45:19.961821
- Title: Effectiveness Assessment of Recent Large Vision-Language Models
- Title(参考訳): 最近の大規模視覚言語モデルの有効性評価
- Authors: Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong,
Deng-Ping Fan, Fahad Shahbaz Khan
- Abstract要約: 専門的・汎用的なタスクにおいて,一般的な大規模視覚言語モデル(LVLM)の能力を評価する。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 82.08377770649777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large vision-language models (LVLMs) represents a noteworthy
advancement towards the pursuit of artificial general intelligence. However,
the extent of their efficacy across both specialized and general tasks warrants
further investigation. This article endeavors to evaluate the competency of
popular LVLMs in specialized and general tasks, respectively, aiming to offer a
comprehensive comprehension of these innovative methodologies. To gauge their
efficacy in specialized tasks, we tailor a comprehensive testbed comprising
three distinct scenarios: natural, healthcare, and industrial, encompassing six
challenging tasks. These tasks include salient, camouflaged, and transparent
object detection, as well as polyp and skin lesion detection, alongside
industrial anomaly detection. We examine the performance of three recent
open-source LVLMs -- MiniGPT-v2, LLaVA-1.5, and Shikra -- in the realm of
visual recognition and localization. Moreover, we conduct empirical
investigations utilizing the aforementioned models alongside GPT-4V, assessing
their multi-modal understanding capacities in general tasks such as object
counting, absurd question answering, affordance reasoning, attribute
recognition, and spatial relation reasoning. Our investigations reveal that
these models demonstrate limited proficiency not only in specialized tasks but
also in general tasks. We delve deeper into this inadequacy and suggest several
potential factors, including limited cognition in specialized tasks, object
hallucination, text-to-image interference, and decreased robustness in complex
problems. We hope this study would provide valuable insights for the future
development of LVLMs, augmenting their power in coping with both general and
specialized applications.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の出現は、人工知能の追求に向けた注目すべき進歩を表している。
しかし、特殊任務と一般任務の両方において有効性の範囲はさらなる調査を必要とする。
本稿は,これらの革新的方法論の包括的理解を提供することを目的として,専門的タスクと一般タスクにおける一般的なlvlmの能力を評価することを目的としている。
特定タスクにおける有効性を評価するため、我々は、自然、医療、産業の3つの異なるシナリオからなる総合的なテストベッドを調整した。
これらのタスクには、サルエント、カモフラージュ、透明な物体検出、ポリープ、皮膚病変検出、産業的異常検出が含まれる。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
さらに,上記のモデルをgpt-4vと共に活用し,対象のカウント,不条理な質問応答,代価推論,属性認識,空間関係推論といった一般的なタスクにおけるマルチモーダル理解能力を評価する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても限られた習熟度を示すことが明らかとなった。
我々は、この欠陥を深く掘り下げ、特殊タスクにおける認知の制限、物体幻覚、テキスト・ツー・イメージの干渉、複雑な問題における堅牢性の低下など、いくつかの潜在的な要因を提案する。
本研究は,LVLMの今後の発展に有用な知見を提供し,一般用途と専門用途の両方に対処する能力を高めることを願っている。
関連論文リスト
- Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z) - An Embodied Generalist Agent in 3D World [69.4042892362275]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Efficient Visual Recognition with Deep Neural Networks: A Survey on
Recent Advances and New Directions [37.914102870280324]
ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
本稿では,近年の進歩の展望と今後の方向性について提案する。
論文 参考訳(メタデータ) (2021-08-30T08:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。