論文の概要: Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge
- arxiv url: http://arxiv.org/abs/2602.22455v1
- Date: Wed, 25 Feb 2026 22:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.437031
- Title: Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge
- Title(参考訳): エッジ上でのオンラインエピソード記憶質問応答のためのマルチモーダルLMMの検討
- Authors: Giuseppe Lando, Rosario Forte, Antonino Furnari,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)をリアルタイムなオンラインエピソードメモリ質問応答に適用する可能性について検討する。
QAEgo4D-Closedベンチマークの実験では、厳密なリソース境界内でのマルチモーダル大言語モデル(MLLM)の性能を分析した。
- 参考スコア(独自算出の注目度): 9.701124246177661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the feasibility of using Multimodal Large Language Models (MLLMs) for real-time online episodic memory question answering. While cloud offloading is common, it raises privacy and latency concerns for wearable assistants, hence we investigate implementation on the edge. We integrated streaming constraints into our question answering pipeline, which is structured into two asynchronous threads: a Descriptor Thread that continuously converts video into a lightweight textual memory, and a Question Answering (QA) Thread that reasons over the textual memory to answer queries. Experiments on the QAEgo4D-Closed benchmark analyze the performance of Multimodal Large Language Models (MLLMs) within strict resource boundaries, showing promising results also when compared to clound-based solutions. Specifically, an end-to-end configuration running on a consumer-grade 8GB GPU achieves 51.76% accuracy with a Time-To-First-Token (TTFT) of 0.41s. Scaling to a local enterprise-grade server yields 54.40% accuracy with a TTFT of 0.88s. In comparison, a cloud-based solution obtains an accuracy of 56.00%. These competitive results highlight the potential of edge-based solutions for privacy-preserving episodic memory retrieval.
- Abstract(参考訳): 本稿では,マルチモーダル大言語モデル(MLLM)をリアルタイムなオンラインエピソードメモリ質問応答に適用する可能性について検討する。
クラウドのオフロードは一般的だが、ウェアラブルアシスタントのプライバシやレイテンシの懸念が高まるため、エッジの実装を調査する。
私たちは、ストリーミング制約を質問応答パイプラインに統合し、2つの非同期スレッドに構造化しました。ビデオを軽量なテキストメモリに継続的に変換するDescriptor Threadと、質問応答(QA)Threadです。
QAEgo4D-Closedベンチマークの実験では、厳密なリソース境界内でのマルチモーダル言語モデル(MLLM)の性能を分析し、クローンドベースのソリューションと比較して有望な結果を示した。
具体的には、コンシューマグレードの8GB GPU上で動作するエンドツーエンド構成では、TTFT(Time-to-First-Token)が0.41秒で51.76%の精度を実現している。
ローカルのエンタープライズグレードサーバへのスケーリングでは、TTFTが0.88秒で54.40%の精度が得られる。
一方、クラウドベースの解は56.00%の精度を得る。
これらの競合的な結果は、プライバシー保護のエピソードメモリ検索におけるエッジベースのソリューションの可能性を強調している。
関連論文リスト
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [76.98722001848493]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering? [11.937961684293672]
市販のマルチモーダル大言語モデル (MLLM) が追加トレーニングなしでオンライン・エピソード・メモリ・ビデオ質問応答 (OEM-VQA) に対処できるかどうかを検討する。
我々のパイプラインは、ストリーミングエゴセントリックなビデオをMLLMディスクリプタモジュールを介して、数分で数キロバイトの軽量なテキストメモリに変換し、このメモリをLCM推論モジュールでクエリすることで、複数の質問に答える。
論文 参考訳(メタデータ) (2025-06-19T16:35:49Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Recurrent Context Compression: Efficiently Expanding the Context Window of LLM [22.595457889113668]
この研究はRecurrent Context Compression (RCC)と呼ばれる手法を導入し、Transformerベースの大規模言語モデル(LLM)のコンテキストウィンドウ長を効率的に拡張する。
我々は,複数のタスクに対するアプローチを検証し,BLEU4スコアが0.95に近いテキスト再構成タスクで最大32倍の圧縮率を実現し,シーケンス長1Mのパスキー検索タスクで約100%の精度を実現した。
論文 参考訳(メタデータ) (2024-06-10T08:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。