論文の概要: Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding
- arxiv url: http://arxiv.org/abs/2505.23990v1
- Date: Thu, 29 May 2025 20:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.656968
- Title: Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding
- Title(参考訳): Multi-RAG:適応的ビデオ理解のためのマルチモーダル検索拡張生成システム
- Authors: Mingyang Mao, Mariela M. Perez-Cabarcas, Utteja Kallakuri, Nicholas R. Waytowich, Xiaomin Lin, Tinoosh Mohsenin,
- Abstract要約: Multi-RAGは、情報集約的な状況下で人間に適応的な支援を提供するために設計された検索拡張生成システムである。
本システムは,マルチソース情報ストリームの統合と推論により,状況理解の改善と認知負荷の低減を目的としている。
- 参考スコア(独自算出の注目度): 2.3390724500399838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively engage in human society, the ability to adapt, filter information, and make informed decisions in ever-changing situations is critical. As robots and intelligent agents become more integrated into human life, there is a growing opportunity-and need-to offload the cognitive burden on humans to these systems, particularly in dynamic, information-rich scenarios. To fill this critical need, we present Multi-RAG, a multimodal retrieval-augmented generation system designed to provide adaptive assistance to humans in information-intensive circumstances. Our system aims to improve situational understanding and reduce cognitive load by integrating and reasoning over multi-source information streams, including video, audio, and text. As an enabling step toward long-term human-robot partnerships, Multi-RAG explores how multimodal information understanding can serve as a foundation for adaptive robotic assistance in dynamic, human-centered situations. To evaluate its capability in a realistic human-assistance proxy task, we benchmarked Multi-RAG on the MMBench-Video dataset, a challenging multimodal video understanding benchmark. Our system achieves superior performance compared to existing open-source video large language models (Video-LLMs) and large vision-language models (LVLMs), while utilizing fewer resources and less input data. The results demonstrate Multi- RAG's potential as a practical and efficient foundation for future human-robot adaptive assistance systems in dynamic, real-world contexts.
- Abstract(参考訳): 人間の社会に効果的に関与するためには、常に変化する状況において適応し、情報をフィルターし、情報的決定を行う能力が不可欠である。
ロボットやインテリジェントエージェントが人間の生活に統合されるにつれ、特に動的で情報に富んだシナリオにおいて、人間の認知的負担をこれらのシステムにオフロードする機会と必要性が高まっている。
この重要なニーズを満たすために、情報集約的な状況下で人間に適応的な支援を提供するために設計されたマルチモーダル検索拡張生成システムであるMulti-RAGを提案する。
本システムは,映像,音声,テキストなどの多ソース情報ストリームの統合と推論により,状況理解の改善と認知負荷の低減を目的としている。
長期的な人間とロボットのパートナーシップに向けてのステップとして、Multi-RAGは、動的で人間中心の状況における適応型ロボット支援の基盤として、マルチモーダル情報理解がどのように役立つかを探求する。
現実的なヒューマン・アシスタンス・プロキシ・タスクにおけるその能力を評価するため,MMBench-Videoデータセット上でMulti-RAGをベンチマークした。
本システムは,既存のビデオ大言語モデル (ビデオ-LLM) や大規模視覚言語モデル (LVLM) と比較して,少ないリソースと少ない入力データを活用しながら優れた性能を実現する。
その結果、マルチRAGは、動的な実世界の状況下での人間ロボット適応支援システムの実用的で効率的な基盤としての可能性を示した。
関連論文リスト
- Multidimensional Human Activity Recognition With Large Language Model: A Conceptual Framework [0.0]
緊急対応や高齢者ケアのような高リスク環境では、大きな言語モデル(LLM)の統合がリスクアセスメント、リソースアロケーション、緊急対応に革命をもたらします。
本稿では,HAR(Human Activity Recognition)システムにおける多次元学習を支援するために,様々なウェアラブルデバイスを1次元と見なす概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T21:36:23Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。