Fugu-MT 論文翻訳(概要): Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

論文の概要: Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2312.17661v1
Date: Fri, 29 Dec 2023 15:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 09:20:54.482248
Title: Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
Title（参考訳）: Gemini in Reasoning: マルチモーダル大規模言語モデルにおける共通理解の展開
Authors: Yuqing Wang, Yun Zhao
Abstract要約: Googleは、マルチモーダル統合に特化した最先端のMLLMであるGeminiを発表した。その進歩にもかかわらず、予備ベンチマークは、ジェミニが常識的推論タスクにおいてGPTモデルに遅れていることを示している。本研究は,複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価する。
参考スコア（独自算出の注目度）: 14.30980373935713
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.
Abstract（参考訳）: OpenAIのGPT-4V(ision)のようなMLLM(Multimodal Large Language Models)への関心は、学術界と産業界の両方に大きな影響を与えている。これらのモデルは、高度な視覚的理解機能を備えたLarge Language Models (LLM)を強化し、様々なマルチモーダルタスクでアプリケーションを容易にする。最近、Googleはマルチモーダル統合に特化した最先端のMLLMであるGeminiを発表した。その進歩にもかかわらず、予備ベンチマークはgeminiが共通意味推論タスクにおいてgptモデルより遅れていることを示している。しかしながら、この評価は限られたデータセット(すなわちhelaswag)に基づいており、geminiの真のコモンセンス推論ポテンシャルを完全には捉えていない。このギャップに対処するため,本研究では,モダリティ間の共通認識知識の統合を必要とする複雑な推論タスクにおけるgeminiの性能を徹底的に評価する。一般的なタスクからドメイン固有のタスクまで,12のコモンセンス推論データセットを包括的に分析した。これには言語のみに焦点を当てた11のデータセットと、マルチモーダル要素を含むデータセットが含まれている。 4つのLLMと2つのMLLMにわたる実験は、ジェミニの競合するコモンセンス推論能力を示す。さらに,既存のLLMやMLLMが抱えるコモンセンス問題に対処する上での共通課題を明らかにし,これらのモデルのコモンセンス推論能力のさらなる向上の必要性を強調した。

関連論文リスト

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Scientific Reasoning: Assessment of Multimodal Generative LLMs [0.0]
我々は,ScienceQA 上で複数のマルチモーダル LLM (MLLMs) を評価し,Gemini モデルが最も精度が高いことを発見した。 Geminiからのトレーニングは、元のデータからのトレーニングを一貫して過小評価する。
論文参考訳（メタデータ） (2025-03-03T00:07:22Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文参考訳（メタデータ） (2024-03-27T08:38:49Z)
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文参考訳（メタデータ） (2024-03-10T12:43:27Z)
Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T11:32:41Z)
The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。 MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文参考訳（メタデータ） (2024-01-22T16:57:05Z)
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.54563675327198]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。 Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文参考訳（メタデータ） (2023-12-19T18:59:22Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-22T06:47:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。