論文の概要: MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.19457v2
- Date: Tue, 28 Oct 2025 03:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.857551
- Title: MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models
- Title(参考訳): MINED:大規模マルチモーダルモデルのためのマルチモーダル時間知覚知識の探索と更新
- Authors: Kailin Jiang, Ning Jiang, Yuntao Du, Yuchen Ren, Yuchen Li, Yifan Gao, Jinhe Bi, Yunpu Ma, Qingqing Liu, Xianhao Wang, Yifan Jia, Hongbo Jiang, Yaocong Hu, Bin Li, Lei Liu,
- Abstract要約: 大規模マルチモーダルモデルは、クロスモーダル事前学習を通じて豊富な事実知識を符号化する。
MINEDは6つの重要な次元と11の課題に沿った時間的認識を評価するベンチマークである。
Gemini-2.5-Pro は平均 CEM スコア 63.07 を達成しているが、ほとんどのオープンソース LMM には時間理解能力がない。
- 参考スコア(独自算出の注目度): 22.511713572376536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) encode rich factual knowledge via cross-modal pre-training, yet their static representations struggle to maintain an accurate understanding of time-sensitive factual knowledge. Existing benchmarks remain constrained by static designs, inadequately evaluating LMMs' ability to understand time-sensitive knowledge. To address this gap, we propose MINED, a comprehensive benchmark that evaluates temporal awareness along 6 key dimensions and 11 challenging tasks: cognition, awareness, trustworthiness, understanding, reasoning, and robustness. MINED is constructed from Wikipedia by two professional annotators, containing 2,104 time-sensitive knowledge samples spanning six knowledge types. Evaluating 15 widely used LMMs on MINED shows that Gemini-2.5-Pro achieves the highest average CEM score of 63.07, while most open-source LMMs still lack time understanding ability. Meanwhile, LMMs perform best on organization knowledge, whereas their performance is weakest on sport. To address these challenges, we investigate the feasibility of updating time-sensitive knowledge in LMMs through knowledge editing methods and observe that LMMs can effectively update knowledge via knowledge editing methods in single editing scenarios.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、クロスモーダル事前学習を通じて豊富な事実知識を符号化するが、それらの静的表現は、時間に敏感な事実知識の正確な理解を維持するのに苦労する。
既存のベンチマークは静的設計によって制約され続けており、LMMが時間に敏感な知識を理解する能力は不十分である。
このギャップに対処するため,6つの重要な次元と11の課題 – 認知,認識,信頼,理解,理性,堅牢性 – に沿った時間的意識を評価する総合的なベンチマークであるMINEDを提案する。
MINEDはウィキペディアの2つの専門アノテーションによって構築され、6つの知識タイプにまたがる2,104の時間感受性知識サンプルを含んでいる。
MINEDで広く使われている15のLMMを評価すると、Gemini-2.5-Proは平均CEMスコアが63.07であるのに対して、ほとんどのオープンソースLMMは時間理解能力に欠けていた。
一方、LMMは組織知識において最善を尽くす一方、そのパフォーマンスはスポーツにおいて最も弱い。
これらの課題に対処するために,知識編集手法によるLMMにおける時間依存知識の更新の可能性を検討するとともに,単一の編集シナリオにおける知識編集手法によってLMMが知識を効果的に更新できることを確認する。
関連論文リスト
- When Large Multimodal Models Confront Evolving Knowledge:Challenges and Pathways [33.07000185684693]
大規模言語/マルチモーダルモデル(LLMs/LMMs)は、事前訓練された知識を蓄積するが、実際の更新との整合性を維持するのに苦労する。
実世界のシナリオにおいてマルチモーダル進化的知識を注入するLMMの能力を評価するためのEVOKEベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-30T10:36:19Z) - Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.36644075780221]
Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。
Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。
デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
論文 参考訳(メタデータ) (2025-01-23T16:51:47Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - ModalPrompt: Towards Efficient Multimodal Continual Instruction Tuning with Dual-Modality Guided Prompt [51.71932333475573]
大規模マルチモーダルモデル(LMM)は、混合命令データセットを学習することで、顕著なマルチタスク能力を示す。
既存のMCITメソッドはLMMのユニークな属性を完全に活用していない。
本稿では,従来の知識の忘れを効果的に緩和する,MCITのための新しい素早い学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。