論文の概要: From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities
- arxiv url: http://arxiv.org/abs/2401.15071v2
- Date: Mon, 29 Jan 2024 15:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 11:32:51.756737
- Title: From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities
- Title(参考訳): GPT-4からGeminiとBeyondへ:4つのモダリティによるMLLMの景観の一般化性, 信頼性, 因果性を評価する
- Authors: Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie
Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li,
Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao
Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He,
Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou,
Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang
- Abstract要約: 本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
- 参考スコア(独自算出の注目度): 111.44485171421535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have shown impressive abilities in
generating reasonable responses with respect to multi-modal contents. However,
there is still a wide gap between the performance of recent MLLM-based
applications and the expectation of the broad public, even though the most
powerful OpenAI's GPT-4 and Google's Gemini have been deployed. This paper
strives to enhance understanding of the gap through the lens of a qualitative
study on the generalizability, trustworthiness, and causal reasoning
capabilities of recent proprietary and open-source MLLMs across four
modalities: ie, text, code, image, and video, ultimately aiming to improve the
transparency of MLLMs. We believe these properties are several representative
factors that define the reliability of MLLMs, in supporting various downstream
applications. To be specific, we evaluate the closed-source GPT-4 and Gemini
and 6 open-source LLMs and MLLMs. Overall we evaluate 230 manually designed
cases, where the qualitative results are then summarized into 12 scores (ie, 4
modalities times 3 properties). In total, we uncover 14 empirical findings that
are useful to understand the capabilities and limitations of both proprietary
and open-source MLLMs, towards more reliable downstream multi-modal
applications.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は,マルチモーダルコンテンツに対して合理的な応答を生成する能力を示す。
しかし、最近のMLLMベースのアプリケーションのパフォーマンスと、最も強力なOpenAIのGPT-4とGoogleのGeminiがデプロイされているにもかかわらず、一般大衆の期待との間にはまだ大きなギャップがある。
本稿では,最近のプロプライエタリでオープンソースであるmllmの汎用性,信頼性,因果的推論能力について,ie,テキスト,コード,画像,ビデオの4つのモードにまたがって定性的な研究を行い,最終的にmllmの透明性向上を目指す。
これらの特性は、様々な下流アプリケーションをサポートする上で、MLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
具体的には、GPT-4 と Gemini と6つのオープンソース LLM と MLLM を評価した。
全体として230のケースを手作業で評価し,定性的な結果を12のスコア(4つのモダリティの3つの特性)にまとめる。
全体として、より信頼性の高いダウンストリームマルチモーダルアプリケーションに向けて、プロプライエタリとオープンソースの両方のmllmの機能と制限を理解するのに有用な14の実証的発見を明らかにする。
関連論文リスト
- Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with
Vision-Language Benchmark [43.07531186686455]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking のタスクにおいて, 人間の嗜好とは大きく異なっていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - Towards End-to-End Embodied Decision Making via Multi-modal Large
Language Model: Explorations with GPT4-Vision and Beyond [38.85644950457275]
本研究では,最先端MLLMがエンド・ツー・エンド方式で具体的意思決定を処理できるかどうかを検討する。
以上の結果から, GPT4-Visionのような強力なMLLMは, 組込みエージェントの意思決定に有効であることがわかった。
論文 参考訳(メタデータ) (2023-10-03T14:13:36Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。