論文の概要: How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?
- arxiv url: http://arxiv.org/abs/2506.16450v1
- Date: Thu, 19 Jun 2025 16:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.168118
- Title: How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?
- Title(参考訳): オンライン・エピソード・メモリ・問合せにおける多モーダル大言語モデルの展開はどこまで可能か?
- Authors: Giuseppe Lando, Rosario Forte, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: 市販のマルチモーダル大言語モデル (MLLM) が追加トレーニングなしでオンライン・エピソード・メモリ・ビデオ質問応答 (OEM-VQA) に対処できるかどうかを検討する。
我々のパイプラインは、ストリーミングエゴセントリックなビデオをMLLMディスクリプタモジュールを介して、数分で数キロバイトの軽量なテキストメモリに変換し、このメモリをLCM推論モジュールでクエリすることで、複数の質問に答える。
- 参考スコア(独自算出の注目度): 11.937961684293672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether off-the-shelf Multimodal Large Language Models (MLLMs) can tackle Online Episodic-Memory Video Question Answering (OEM-VQA) without additional training. Our pipeline converts a streaming egocentric video into a lightweight textual memory, only a few kilobytes per minute, via an MLLM descriptor module, and answers multiple-choice questions by querying this memory with an LLM reasoner module. On the QAEgo4D-Closed benchmark, our best configuration attains 56.0% accuracy with 3.6 kB per minute storage, matching the performance of dedicated state-of-the-art systems while being 10**4/10**5 times more memory-efficient. Extensive ablations provides insights into the role of each component and design choice, and highlight directions of improvement for future research.
- Abstract(参考訳): 市販のマルチモーダル大言語モデル (MLLM) が追加トレーニングなしでオンライン・エピソード・メモリ・ビデオ質問応答 (OEM-VQA) に対処できるかどうかを検討する。
我々のパイプラインは、ストリーミングエゴセントリックなビデオをMLLMディスクリプタモジュールを介して、数分で数キロバイトの軽量なテキストメモリに変換し、このメモリをLCM推論モジュールでクエリすることで、複数の質問に答える。
QAEgo4D-Closedベンチマークでは、最高の構成は56.0%の精度で1分あたり3.6kBで、専用システムの性能と10**4/10**5倍のメモリ効率で一致しています。
広範囲にわたる改善は、各コンポーネントの役割と設計選択に関する洞察を与え、将来の研究のための改善の方向性を強調します。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。