論文の概要: LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment
- arxiv url: http://arxiv.org/abs/2511.02371v1
- Date: Tue, 04 Nov 2025 08:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.858979
- Title: LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment
- Title(参考訳): LUMA-RAG:安定なストリーミングアライメントを有する長寿命マルチモーダルエージェント
- Authors: Rohan Wandre, Yash Gajewar, Namrata Patel, Vivek Dhalkari,
- Abstract要約: Retrieval-Augmented Generationは、検証可能な証拠で大規模言語モデルのアウトプットを基礎づける主要なパラダイムとして登場した。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
実験では、堅牢なテキスト・ツー・イメージ検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ・ツー・イメージランキング(Safe@1 = 1.0)が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as the dominant paradigm for grounding large language model outputs in verifiable evidence. However, as modern AI agents transition from static knowledge bases to continuous multimodal streams encompassing text, images, video, and audio, two critical challenges arise: maintaining index freshness without prohibitive re-indexing costs, and preserving cross-modal semantic consistency across heterogeneous embedding spaces. We present LUMA-RAG, a lifelong multimodal agent architecture featuring three key innovations: (i) a streaming, multi-tier memory system that dynamically spills embeddings from a hot HNSW tier to a compressed IVFPQ tier under strict memory budgets; (ii) a streaming CLAP->CLIP alignment bridge that maintains cross-modal consistency through incremental orthogonal Procrustes updates; and (iii) stability-aware retrieval telemetry providing Safe@k guarantees by jointly bounding alignment drift and quantization error. Experiments demonstrate robust text-to-image retrieval (Recall@10 = 0.94), graceful performance degradation under product quantization offloading, and provably stable audio-to-image rankings (Safe@1 = 1.0), establishing LUMA-RAG as a practical framework for production multimodal RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検証可能な証拠で大規模言語モデルの出力を基礎づける主要なパラダイムとして登場した。
しかし、現代のAIエージェントが静的な知識ベースから、テキスト、画像、ビデオ、オーディオを含む継続的マルチモーダルストリームへと移行するにつれて、2つの重要な課題が発生する。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
i) 厳格なメモリ予算の下で、熱いHNSW層から圧縮されたIVFPQ層に埋め込みを動的にこぼすストリーミング多層メモリシステム。
(II)増分直交Procrustes更新による相互整合性を維持するストリーミングCLAP->CLIPアライメントブリッジ
3)アライメントドリフトと量子化誤差の連接によるSafe@k保証を実現する安定性を考慮した検索テレメトリ。
実験では、堅牢なテキスト画像検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ画像ランキング(Safe@1 = 1.0)を実証し、LUMA-RAGをマルチモーダルRAGシステムの実用的フレームワークとして確立した。
関連論文リスト
- Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。