論文の概要: LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment
- arxiv url: http://arxiv.org/abs/2511.02371v1
- Date: Tue, 04 Nov 2025 08:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.858979
- Title: LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment
- Title(参考訳): LUMA-RAG:安定なストリーミングアライメントを有する長寿命マルチモーダルエージェント
- Authors: Rohan Wandre, Yash Gajewar, Namrata Patel, Vivek Dhalkari,
- Abstract要約: Retrieval-Augmented Generationは、検証可能な証拠で大規模言語モデルのアウトプットを基礎づける主要なパラダイムとして登場した。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
実験では、堅牢なテキスト・ツー・イメージ検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ・ツー・イメージランキング(Safe@1 = 1.0)が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as the dominant paradigm for grounding large language model outputs in verifiable evidence. However, as modern AI agents transition from static knowledge bases to continuous multimodal streams encompassing text, images, video, and audio, two critical challenges arise: maintaining index freshness without prohibitive re-indexing costs, and preserving cross-modal semantic consistency across heterogeneous embedding spaces. We present LUMA-RAG, a lifelong multimodal agent architecture featuring three key innovations: (i) a streaming, multi-tier memory system that dynamically spills embeddings from a hot HNSW tier to a compressed IVFPQ tier under strict memory budgets; (ii) a streaming CLAP->CLIP alignment bridge that maintains cross-modal consistency through incremental orthogonal Procrustes updates; and (iii) stability-aware retrieval telemetry providing Safe@k guarantees by jointly bounding alignment drift and quantization error. Experiments demonstrate robust text-to-image retrieval (Recall@10 = 0.94), graceful performance degradation under product quantization offloading, and provably stable audio-to-image rankings (Safe@1 = 1.0), establishing LUMA-RAG as a practical framework for production multimodal RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検証可能な証拠で大規模言語モデルの出力を基礎づける主要なパラダイムとして登場した。
しかし、現代のAIエージェントが静的な知識ベースから、テキスト、画像、ビデオ、オーディオを含む継続的マルチモーダルストリームへと移行するにつれて、2つの重要な課題が発生する。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
i) 厳格なメモリ予算の下で、熱いHNSW層から圧縮されたIVFPQ層に埋め込みを動的にこぼすストリーミング多層メモリシステム。
(II)増分直交Procrustes更新による相互整合性を維持するストリーミングCLAP->CLIPアライメントブリッジ
3)アライメントドリフトと量子化誤差の連接によるSafe@k保証を実現する安定性を考慮した検索テレメトリ。
実験では、堅牢なテキスト画像検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ画像ランキング(Safe@1 = 1.0)を実証し、LUMA-RAGをマルチモーダルRAGシステムの実用的フレームワークとして確立した。
関連論文リスト
- CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception [9.983779569276475]
コラボレーティブアライメント・アンド・トランスフォーメーション・ネットワーク(CATNet)は、マルチエージェントシステムにおける時間遅延とノイズ干渉を解決する適応補償フレームワークである。
まず、非同期機能ストリームの整合性を備えた時空間リカレントシンクロナイゼーション(STSync)を紹介します。
第2に,大域的雑音を抑制し,局所的特徴歪みを再構成するDual-Branch Wavelet Enhanced Denoiser (WTDen) を設計する。
第三に、ロバスト融合のための重要な知覚機能に動的にフォーカスする適応的特徴選択器(AdpSel)を構築する。
論文 参考訳(メタデータ) (2026-03-05T15:07:36Z) - OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations [2.312232949770907]
転がり要素軸受は機械故障の最も頻発する原因の一つである。
転がり要素軸受は機械故障の最も頻発する原因の一つである。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
論文 参考訳(メタデータ) (2025-12-07T07:38:36Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。