Fugu-MT 論文翻訳(概要): Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models

論文の概要: Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2310.13473v1
Date: Fri, 20 Oct 2023 13:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 22:52:58.437884
Title: Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルにおける逐次的視覚入力推論と予測
Authors: Mingwei Zhu, Leigang Sha, Yu Shu, Kangjia Zhao, Tiancheng Zhao, Jianwei Yin
Abstract要約: 本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。実験により,提案したベンチマークの音質と評価方法が検証された。
参考スコア（独自算出の注目度）: 21.438427686724932
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal large language models (MLLMs) have shown great potential in perception and interpretation tasks, but their capabilities in predictive reasoning remain under-explored. To address this gap, we introduce a novel benchmark that assesses the predictive reasoning capabilities of MLLMs across diverse scenarios. Our benchmark targets three important domains: abstract pattern reasoning, human activity prediction, and physical interaction prediction. We further develop three evaluation methods powered by large language model to robustly quantify a model's performance in predicting and reasoning the future based on multi-visual context. Empirical experiments confirm the soundness of the proposed benchmark and evaluation methods via rigorous testing and reveal pros and cons of current popular MLLMs in the task of predictive reasoning. Lastly, our proposed benchmark provides a standardized evaluation framework for MLLMs and can facilitate the development of more advanced models that can reason and predict over complex long sequence of multimodal input.
Abstract（参考訳）: マルチモーダル大言語モデル(mllm)は、認識と解釈タスクにおいて大きな可能性を示したが、予測推論の能力は未検討のままである。このギャップに対処するために,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを導入する。本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。さらに,大規模言語モデルを用いた3つの評価手法を開発し,多視点コンテキストに基づく未来予測・推論におけるモデル性能の定量化を図る。実験により,提案したベンチマークと評価手法の音質を厳密な試験により検証し,予測推論の課題における現在のMLLMの長所と短所を明らかにする。最後に,提案するベンチマークはmllmsの標準化評価フレームワークを提供し,マルチモーダル入力の複雑な長いシーケンスを推論し,予測可能な,より高度なモデルの開発を容易にする。

関連論文リスト

Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。 GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文参考訳（メタデータ） (2025-04-30T04:24:50Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.34626300024294]
TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。より正確な予測と解釈可能な説明を生成する。 4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳（メタデータ） (2025-03-02T20:40:53Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文参考訳（メタデータ） (2024-10-07T00:22:07Z)
N-gram Prediction and Word Difference Representations for Language Modeling [0.0]
因果言語モデル(CLM)タスクのための単純なN-gram予測フレームワークを提案する。また,モデル学習中に,単語差分表現(WDR)を補助的・文脈的対象表現として導入する。そこで我々は,次の単語予測の精度をさらに高めるために,将来のN単語予測結果を組み込んだアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-09-05T07:03:23Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models [24.445829787297658]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な機能を示している。本研究の目的は,複数選択質問(MCQ)におけるLCMを用いた確率に基づく評価手法の有効性を検討することである。実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。
論文参考訳（メタデータ） (2024-02-21T15:58:37Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)
Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文参考訳（メタデータ） (2022-05-28T01:03:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。