Fugu-MT 論文翻訳(概要): GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models

論文の概要: GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models

arxiv url: http://arxiv.org/abs/2311.09048v3
Date: Thu, 6 Jun 2024 09:35:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-08 00:29:50.104287
Title: GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models
Title（参考訳）: GRASP:マルチモーダル言語モデルにおける言語GRoundingとSituated Physics Understandingの評価のための新しいベンチマーク
Authors: Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer, Elia Bruni,
Abstract要約: 本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。我々は、最先端のマルチモーダルLCMの評価にそれを用いている。評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。
参考スコア（独自算出の注目度）: 4.354672867211922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents GRASP, a novel benchmark to evaluate the language grounding and physical understanding capabilities of video-based multimodal large language models (LLMs). This evaluation is accomplished via a two-tier approach leveraging Unity simulations. The first level tests for language grounding by assessing a model's ability to relate simple textual descriptions with visual information. The second level evaluates the model's understanding of "Intuitive Physics" principles, such as object permanence and continuity. In addition to releasing the benchmark, we use it to evaluate several state-of-the-art multimodal LLMs. Our evaluation reveals significant shortcomings in the language grounding and intuitive physics capabilities of these models. Although they exhibit at least some grounding capabilities, particularly for colors and shapes, these capabilities depend heavily on the prompting strategy. At the same time, all models perform below or at the chance level of 50% in the Intuitive Physics tests, while human subjects are on average 80% correct. These identified limitations underline the importance of using benchmarks like GRASP to monitor the progress of future models in developing these competencies.
Abstract（参考訳）: 本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。この評価は、Unityシミュレーションを利用する2層アプローチによって達成される。モデルが単純なテキスト記述と視覚情報とを関連付ける能力を評価することで、言語接地の最初のレベルテストを行う。第2のレベルは、オブジェクトの永続性や連続性といった「直観的物理学」の原則に対するモデルの理解を評価する。ベンチマークの公開に加えて、いくつかの最先端マルチモーダルLCMの評価にも使用しています。評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。彼らは少なくともいくつかの接地能力、特に色と形状を示すが、これらの能力は促進戦略に大きく依存している。同時に、すべてのモデルが直観物理学のテストでは50%以下または50%の確率で実行され、人間の被験者は平均80%の精度で正しい。これらの制限は、GRASPのようなベンチマークを使用して、これらの能力の開発における将来のモデルの進捗を監視することの重要性を浮き彫りにしている。

関連論文リスト

Pixels to Principles: Probing Intuitive Physics Understanding in Multimodal Language Models [5.134872455507186]
本稿では,直感的な物理課題に対するMLLM(State-of-the-the-art multimodal large language model)の体系的評価について述べる。オープンソースモデルであるInternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision、およびプロプライエタリなGemini 2.0 Flash Thinkingを評価した。最新のモデルでさえ、不確実なシナリオと物理的に妥当な区別を確実にするのに苦労している。
論文参考訳（メタデータ） (2025-07-22T13:24:42Z)
Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。 PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-21T17:30:46Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。 IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文参考訳（メタデータ） (2025-06-11T15:21:16Z)
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文参考訳（メタデータ） (2024-10-07T17:56:04Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文参考訳（メタデータ） (2022-10-21T16:07:00Z)
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。 20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文参考訳（メタデータ） (2022-04-19T10:23:42Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。