論文の概要: Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance
- arxiv url: http://arxiv.org/abs/2508.18177v1
- Date: Mon, 25 Aug 2025 16:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.862482
- Title: Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance
- Title(参考訳): 視覚障害者支援のためのクロスモーダル微分量子化VLMを用いたシーン認識ベクトル化メモリマルチエージェントフレームワーク
- Authors: Xiangxiang Wang, Xuanyu Wang, YiJia Luo, Yongbin Yu, Manping Fan, Jingtao Zhang, Liyong Ren,
- Abstract要約: 本研究では,視覚言語モデル(VLM)のためのクロスモーダル微分量子化フレームワークと,視覚障害者支援のためのシーン認識ベクトル化メモリマルチエージェントシステムを提案する。
モデル性能を維持しながら、メモリ要求を38GBから16GBに効果的に削減し、異なる処理戦略を実装したモジュラーフレームワークを開発した。
- 参考スコア(独自算出の注目度): 4.6432462796838125
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study proposes the dual technological innovation framework, including a cross-modal differ entiated quantization framework for vision-language models (VLMs) and a scene-aware vectorized memory multi-agent system for visually impaired assistance. The modular framework was developed implementing differentiated processing strategies, effectively reducing memory requirements from 38GB to 16GB while maintaining model performance. The multi-agent architecture combines scene classification, vectorized memory, and multimodal interaction, enabling persistent storage and efficient retrieval of scene memories. Through perception-memory-reasoning workflows, the system provides environmental information beyond the current view using historical memories. Experiments show the quantized 19B-parameter model only experiences a 2.05% performance drop on MMBench and maintains 63.7 accuracy on OCR-VQA (original: 64.9), outperforming smaller models with equivalent memory requirements like the Molmo-7B series. The system maintains response latency between 2.83-3.52 seconds from scene analysis to initial speech output, substantially faster than non-streaming methods. This research advances computational efficiency and assistive technology, offering visually impaired users comprehensive real-time assistance in scene perception, text recognition, and navigation.
- Abstract(参考訳): 本研究は,視覚言語モデル(VLM)のクロスモーダル差分量子化フレームワークと視覚障害者支援のためのシーン認識ベクトル化メモリマルチエージェントシステムを含む,デュアル技術革新フレームワークを提案する。
モデル性能を維持しながら、メモリ要求を38GBから16GBに効果的に削減し、異なる処理戦略を実装したモジュラーフレームワークを開発した。
マルチエージェントアーキテクチャはシーン分類、ベクトル化メモリ、マルチモーダルインタラクションを組み合わせることで、永続的な記憶とシーンメモリの効率的な検索を可能にする。
知覚記憶推論のワークフローを通じて、このシステムは過去の記憶を用いて現在の視点を超えた環境情報を提供する。
実験では、量子化された19BパラメータモデルはMMBenchで2.05%の性能低下しか経験せず、OCR-VQA(元は64.9)で63.7の精度を維持しており、モルモ-7Bシリーズのような同等のメモリを必要とする小さなモデルよりも優れている。
このシステムは、シーン分析から初期音声出力までの2.83-3.52秒間の応答遅延を、非ストリーミング方式よりもかなり高速に維持する。
本研究は,視覚障害のあるユーザに対して,シーン認識,テキスト認識,ナビゲーションにおけるリアルタイム支援を包括的に行うことにより,計算効率と補助技術を向上する。
関連論文リスト
- HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Memory-Efficient Continual Learning Object Segmentation for Long Video [7.9190306016374485]
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
論文 参考訳(メタデータ) (2023-09-26T21:22:03Z) - Multi-Task Network Pruning and Embedded Optimization for Real-time
Deployment in ADAS [0.0]
カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。
自動車業界からの制約は、限られた計算リソースで組み込みシステムを課すことでCNNの展開に挑戦します。
商用プロトタイププラットフォーム上で,このような条件下でマルチタスクCNNネットワークを埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-01-19T19:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。