論文の概要: Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
- arxiv url: http://arxiv.org/abs/2506.10415v1
- Date: Thu, 12 Jun 2025 07:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.620456
- Title: Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
- Title(参考訳): 読み終わった後のバーン: マルチモーダルな大言語モデルは、画像シーケンスにおけるイベントの順序を真に捉えるか?
- Authors: Yingjin Song, Yupei Du, Denis Paperno, Albert Gatt,
- Abstract要約: 本稿では,画像系列におけるMLLMの時間的グラウンド化と推論機能に着目したTempVSベンチマークを提案する。
我々は38の最先端MLLMを評価し、モデルがTempVSを解くのに苦労していることを示す。
TempVSベンチマークデータとコードはhttps://github.com/yg22/TempVS.comで公開しています。
- 参考スコア(独自算出の注目度): 4.848667962750241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the TempVS benchmark, which focuses on temporal grounding and reasoning capabilities of Multimodal Large Language Models (MLLMs) in image sequences. TempVS consists of three main tests (i.e., event relation inference, sentence ordering and image ordering), each accompanied with a basic grounding test. TempVS requires MLLMs to rely on both visual and linguistic modalities to understand the temporal order of events. We evaluate 38 state-of-the-art MLLMs, demonstrating that models struggle to solve TempVS, with a substantial performance gap compared to human capabilities. We also provide fine-grained insights that suggest promising directions for future research. Our TempVS benchmark data and code are available at https://github.com/yjsong22/TempVS.
- Abstract(参考訳): 本稿では,画像系列におけるMLLM(Multimodal Large Language Models)の時間的グラウンド化と推論機能に着目したTempVSベンチマークを提案する。
TempVSは3つの主要なテスト(イベント関係推論、文順序付け、画像順序付け)で構成される。
TempVSは、MLLMがイベントの時間的順序を理解するために視覚的および言語的モダリティの両方に依存する必要がある。
我々は38の最先端MLLMを評価し、モデルがTempVSの解決に苦慮していることを示す。
また、今後の研究に期待できる方向性を示す詳細な洞察も提供します。
TempVSベンチマークデータとコードはhttps://github.com/yjsong22/TempVS.comで公開しています。
関連論文リスト
- ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。
提案手法は,次の場面における記述課題の性能向上に寄与する。
ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-26T18:55:06Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。