論文の概要: V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.16581v1
- Date: Tue, 17 Mar 2026 14:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.340552
- Title: V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models
- Title(参考訳): V-DyKnow:視覚言語モデルにおける時間知覚的知識の動的ベンチマーク
- Authors: Seyed Mahed Mousavi, Christian Moiola, Massimo Rizzoli, Simone Alghisi, Giuseppe Riccardi,
- Abstract要約: 現実の事実は本質的に時間に敏感であり、不規則かつ周期的な変化にさらされている。
V-DyKnowは、視覚言語モデルにおいて、時間に敏感な事実知識を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 1.424507155580441
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) are trained on data snapshots of documents, including images and texts. Their training data and evaluation benchmarks are typically static, implicitly treating factual knowledge as time-invariant. However, real-world facts are intrinsically time-sensitive and subject to erratic and periodic changes, causing model predictions to become outdated. We present V-DyKnow, a Visual Dynamic Knowledge benchmark for evaluating time-sensitive factual knowledge in VLMs. Using V-DyKnow, we benchmark closed- and open-source VLMs and analyze a) the reliability (correctness and consistency) of model responses across modalities and input perturbations; b) the efficacy of knowledge editing and multi-modal RAG methods for knowledge updates across modalities; and c) the sources of outdated predictions, through data and mechanistic analysis. Our results show that VLMs frequently output outdated facts, reflecting outdated snapshots used in the (pre-)training phase. Factual reliability degrades from textual to visual stimuli, even when entities are correctly recognized. Besides, existing alignment approaches fail to consistently update the models' knowledge across modalities. Together, these findings highlight fundamental limitations in how current VLMs acquire and update time-sensitive knowledge across modalities. We release the benchmark, code, and evaluation data.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)は、画像やテキストを含む文書のデータスナップショットに基づいて訓練される。
トレーニングデータと評価ベンチマークは通常静的で、事実知識を時間不変として暗黙的に扱う。
しかし、現実の事実は本質的に時間に敏感であり、不規則かつ周期的な変化が伴うため、モデル予測は時代遅れになる。
本稿では,VLMにおける時間に敏感な事実知識を評価するためのビジュアル・ダイナミック・ナレッジ・ベンチマークであるV-DyKnowを紹介する。
V-DyKnowを用いて、クローズドおよびオープンソースVLMのベンチマークと分析を行った。
イ モダリティ及び入力摂動のモデル応答の信頼性(正確性及び整合性)
ロ モダリティを越えた知識更新のための知識編集及びマルチモーダルRAG方法の有効性
c) データ及び機械解析を通じて、時代遅れの予測の源泉
以上の結果から,VLM は (事前) 学習フェーズで使用される古くなったスナップショットを反映して,時代遅れの事実を頻繁に出力することがわかった。
現実的な信頼性は、実体が正しく認識されている場合でも、テキストから視覚的刺激へと低下する。
さらに、既存のアライメントアプローチは、モダリティを越えてモデルの知識を継続的に更新することができない。
これらの知見は、現在のVLMが時間に敏感な知識をモダリティを越えて取得し、更新する方法の根本的な制限を浮き彫りにしている。
ベンチマーク、コード、評価データをリリースします。
関連論文リスト
- Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams [78.9560820155271]
我々は、ストリーミングよりもオンライン適応を評価し、知識を継続的に更新する。
OAKSはOAKS-BABIとOAKS-Novelの2つのデータセットから構成される。
最先端モデルとエージェントメモリシステムはどちらもOAKSにしっかりと適応できない。
論文 参考訳(メタデータ) (2026-03-08T00:38:39Z) - AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science [31.08682306627942]
AssistedDSは、大規模言語モデルがドメイン知識をどのように扱うかを評価するために設計されたベンチマークである。
我々は、最先端のLLMを、有害なドメイン知識を識別し、有効に適用する能力に基づいて評価する。
我々の結果は、専門家の知識を批判的に評価し活用する現在のモデルの能力に、かなりのギャップがあることを示します。
論文 参考訳(メタデータ) (2025-05-25T05:50:21Z) - LLMs as Repositories of Factual Knowledge: Limitations and Solutions [1.7764955091415962]
本研究では,事実知識のリポジトリとしてのLarge Language Models(LLMs)の妥当性について検討する。
時間に敏感な事実質問に応答する際の信頼性を評価する。
本稿では,モデルの性能向上を図るため,ENAF(ENtity-Aware Fine-tuning)を提案する。
論文 参考訳(メタデータ) (2025-01-22T10:16:53Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。