論文の概要: Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences?
- arxiv url: http://arxiv.org/abs/2502.13925v1
- Date: Wed, 19 Feb 2025 18:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:06.631878
- Title: Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences?
- Title(参考訳): 単一フレームを超えて:LMMは画像列における時間的・文脈的ナラティブを補うことができるか?
- Authors: Xiaochen Wang, Heming Xia, Jialin Song, Longyu Guan, Yixin Yang, Qingxiu Dong, Weiyao Luo, Yifan Pu, Yiru Wang, Xiangdi Meng, Wenjie Li, Zhifang Sui,
- Abstract要約: StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。
StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。
GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
- 参考スコア(独自算出の注目度): 32.61269125015993
- License:
- Abstract: Large Multimodal Models (LMMs) have achieved remarkable success across various visual-language tasks. However, existing benchmarks predominantly focus on single-image understanding, leaving the analysis of image sequences largely unexplored. To address this limitation, we introduce StripCipher, a comprehensive benchmark designed to evaluate capabilities of LMMs to comprehend and reason over sequential images. StripCipher comprises a human-annotated dataset and three challenging subtasks: visual narrative comprehension, contextual frame prediction, and temporal narrative reordering. Our evaluation of $16$ state-of-the-art LMMs, including GPT-4o and Qwen2.5VL, reveals a significant performance gap compared to human capabilities, particularly in tasks that require reordering shuffled sequential images. For instance, GPT-4o achieves only 23.93% accuracy in the reordering subtask, which is 56.07% lower than human performance. Further quantitative analysis discuss several factors, such as input format of images, affecting the performance of LLMs in sequential understanding, underscoring the fundamental challenges that remain in the development of LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は様々な視覚言語タスクにおいて顕著な成功を収めた。
しかし、既存のベンチマークは主に単一画像の理解に重点を置いており、画像列の分析はほとんど探索されていない。
この制限に対処するために、逐次画像の理解と推論を行うLMMの機能を評価するために設計された総合ベンチマークであるStripCipherを紹介する。
StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。
GPT-4oやQwen2.5VLを含む16ドルの最先端のLMMを評価したところ、特にシャッフルされたシーケンシャルな画像の並べ替えを必要とするタスクにおいて、人間の能力と比較して大きな性能差があることが判明した。
例えば、GPT-4oはリオーダーサブタスクにおいてわずか23.93%の精度しか達成していないが、これは人間のパフォーマンスよりも56.07%低い。
さらに定量的な分析では、画像の入力形式など、連続的な理解においてLLMのパフォーマンスに影響を与えるいくつかの要因について論じ、LMMの開発に残る根本的な課題を浮き彫りにする。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Can Large Multimodal Models Uncover Deep Semantics Behind Images? [29.399943397718815]
本稿では,大規模マルチモーダルモデルの視覚的深層セマンティクス能力を評価するための総合ベンチマークであるDEEPEVALを紹介する。
9つのオープンソースLMMとGPT-4V(ision)の評価
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
論文 参考訳(メタデータ) (2024-02-17T13:41:44Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Hijacking Context in Large Multi-modal Models [3.6411220072843866]
そこで本研究では,ごく少数の不整合画像がLMMを誤誘導し,ハイジャックされたコンテキストに関するバイアス出力のみを発生させる,オフザシェルフLMMの新たな制限を導入する。
本稿では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。
ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連づけられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2023-12-07T11:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。