論文の概要: Seeking and Updating with Live Visual Knowledge
- arxiv url: http://arxiv.org/abs/2504.05288v2
- Date: Tue, 01 Jul 2025 02:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.059254
- Title: Seeking and Updating with Live Visual Knowledge
- Title(参考訳): ライブビジュアル知識による検索と更新
- Authors: Mingyang Fu, Yuyang Peng, Dongping Chen, Zetong Zhou, Benlin Liu, Yao Wan, Zhou Zhao, Philip S. Yu, Ranjay Krishna,
- Abstract要約: 107,143のサンプルと12のカテゴリデータを備えた、第一種データセットであるLiveVQAを紹介する。
LiveVQAは、モデルが知識境界を越えて最新の視覚情報をどう扱うかを評価することができる。
最新の17種類のMLLMの総合的なベンチマークでは、知識の遮断を超えてコンテンツに顕著なパフォーマンスギャップが示される。
- 参考スコア(独自算出の注目度): 75.25025869244837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual world around us constantly evolves, from real-time news and social media trends to global infrastructure changes visible through satellite imagery and augmented reality enhancements. However, Multimodal Large Language Models (MLLMs), which automate many tasks, struggle to stay current, limited by the cutoff dates in their fixed training datasets. To quantify this stagnation, we introduce LiveVQA, the first-of-its-kind dataset featuring 107,143 samples and 12 categories data specifically designed to support research in both seeking and updating with live visual knowledge. Drawing from recent news articles, video platforms, and academic publications in April 2024-May 2025, LiveVQA enables evaluation of how models handle latest visual information beyond their knowledge boundaries and how current methods help to update them. Our comprehensive benchmarking of 17 state-of-the-art MLLMs reveals significant performance gaps on content beyond knowledge cutoff, and tool-use or agentic visual seeking framework drastically gain an average of 327% improvement. Furthermore, we explore parameter-efficient fine-tuning (PEFT) methods to update MLLMs with new visual knowledge. We dive deeply to the critical balance between adapter capacity and model capability when updating MLLMs with new visual knowledge. All the experimental dataset and source code are publicly available at: https://livevqa.github.io.
- Abstract(参考訳): われわれの周囲の視覚世界は、リアルタイムニュースやソーシャルメディアのトレンドから、衛星画像や拡張現実(AR)の強化を通じて見えるグローバルなインフラストラクチャーの変化まで、常に進化している。
しかし、多くのタスクを自動化するMultimodal Large Language Models (MLLMs)は、固定されたトレーニングデータセットのカットオフ日によって制限される、現在の状態を維持するのに苦労している。
この停滞を定量化するために、LiveVQAを紹介します。これは、107,143のサンプルと12のカテゴリデータで、ライブビジュアル知識による検索と更新の両方の研究を支援するように設計されています。
2024年4月から2025年5月までのニュース記事やビデオプラットフォーム、学術出版物などから、LiveVQAは、モデルが知識境界を越えて最新の視覚情報をどう扱うか、現在の手法がそれらをどのように更新するかを評価することができる。
最新の17のMLLMの総合的なベンチマークでは、知識の遮断を超えてコンテンツに顕著なパフォーマンスギャップが示され、ツール使用またはエージェント視覚探索フレームワークは、平均327%の大幅な改善を実現した。
さらに,新しいビジュアル知識でMLLMを更新するためのパラメータ効率細調整法(PEFT)についても検討する。
新しい視覚的知識でMLLMを更新する際に、アダプタ容量とモデル能力の臨界バランスを深く掘り下げる。
実験データセットとソースコードはすべて、https://livevqa.github.io.comで公開されている。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset [11.729464930866483]
シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。
従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
論文 参考訳(メタデータ) (2024-10-30T02:30:40Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。
ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。
The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文 参考訳(メタデータ) (2024-07-17T16:55:42Z) - Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Understanding Video Scenes through Text: Insights from Text-based Video
Question Answering [40.01623654896573]
本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。
本稿では,これらのデータセットの様々なレベルでの定式化の分析を行い,その解答に必要な視覚的理解度と多フレーム理解度について検討する。
論文 参考訳(メタデータ) (2023-09-04T06:11:00Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。