論文の概要: Effectiveness Assessment of Recent Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.04306v2
- Date: Mon, 18 Mar 2024 07:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:31:10.115038
- Title: Effectiveness Assessment of Recent Large Vision-Language Models
- Title(参考訳): 最近の大規模視線モデルの有効性評価
- Authors: Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan, Fahad Shahbaz Khan,
- Abstract要約: 専門的・汎用的なタスクにおいて,一般的な大規模視覚言語モデル(LVLM)の能力を評価する。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 78.69439393646554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large vision-language models (LVLMs) represents a noteworthy advancement towards the pursuit of artificial general intelligence. However, the extent of their efficacy across both specialized and general tasks warrants further investigation. This article endeavors to evaluate the competency of popular LVLMs in specialized and general tasks, respectively, aiming to offer a comprehensive comprehension of these innovative methodologies. To gauge their efficacy in specialized tasks, we tailor a comprehensive testbed comprising three distinct scenarios: natural, healthcare, and industrial, encompassing six challenging tasks. These tasks include salient, camouflaged, and transparent object detection, as well as polyp and skin lesion detection, alongside industrial anomaly detection. We examine the performance of three recent open-source LVLMs -- MiniGPT-v2, LLaVA-1.5, and Shikra -- in the realm of visual recognition and localization. Moreover, we conduct empirical investigations utilizing the aforementioned models alongside GPT-4V, assessing their multi-modal understanding capacities in general tasks such as object counting, absurd question answering, affordance reasoning, attribute recognition, and spatial relation reasoning. Our investigations reveal that these models demonstrate limited proficiency not only in specialized tasks but also in general tasks. We delve deeper into this inadequacy and suggest several potential factors, including limited cognition in specialized tasks, object hallucination, text-to-image interference, and decreased robustness in complex problems. We hope this study would provide valuable insights for the future development of LVLMs, augmenting their power in coping with both general and specialized applications.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の出現は、人工知能の追求に向けた注目すべき進歩を表している。
しかし、専門的・一般的な業務にまたがる効果の程度は、さらなる調査を保証している。
本稿では、これらの革新的な方法論を包括的に理解することを目的として、それぞれ専門的・一般的な課題において、人気のあるLVLMの能力を評価する。
専門的なタスクにおける有効性を評価するため、我々は、自然、医療、産業の3つの異なるシナリオからなる総合的なテストベッドを調整した。
これらのタスクには、サルエント、カモフラージュ、透明な物体検出、ポリープ、皮膚病変検出、産業的異常検出が含まれる。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
さらに、前述のモデルとGPT-4Vを併用した実証的研究を行い、オブジェクトカウント、ばかばかしい質問応答、余剰推論、属性認識、空間関係推論といった一般的なタスクにおいて、それらのマルチモーダル理解能力を評価する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
我々は、この欠陥を深く掘り下げ、特殊タスクにおける認知の制限、物体幻覚、テキスト・ツー・イメージの干渉、複雑な問題における堅牢性の低下など、いくつかの潜在的な要因を提案する。
本研究は,LVLMの今後の発展に有用な知見を提供し,一般用途と専門用途の両方に対処する能力を高めることを願っている。
関連論文リスト
- D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。
本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (2024-04-29T17:59:41Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。