論文の概要: Memory-enhanced Retrieval Augmentation for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2503.09149v1
- Date: Wed, 12 Mar 2025 08:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:45.157897
- Title: Memory-enhanced Retrieval Augmentation for Long Video Understanding
- Title(参考訳): 長期ビデオ理解のための記憶強調検索
- Authors: Huaying Yuan, Zheng Liu, Minhao Qin, Hongjin Qian, Y Shu, Zhicheng Dou, Ji-Rong Wen,
- Abstract要約: 我々は,ヒトの認知記憶にインスパイアされた新しいRAGベースのLVUアプローチ,MemVidを紹介した。
提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
- 参考スコア(独自算出の注目度): 57.371543819761555
- License:
- Abstract: Retrieval-augmented generation (RAG) shows strong potential in addressing long-video understanding (LVU) tasks. However, traditional RAG methods remain fundamentally limited due to their dependence on explicit search queries, which are unavailable in many situations. To overcome this challenge, we introduce a novel RAG-based LVU approach inspired by the cognitive memory of human beings, which is called MemVid. Our approach operates with four basics steps: memorizing holistic video information, reasoning about the task's information needs based on the memory, retrieving critical moments based on the information needs, and focusing on the retrieved moments to produce the final answer. To enhance the system's memory-grounded reasoning capabilities and achieve optimal end-to-end performance, we propose a curriculum learning strategy. This approach begins with supervised learning on well-annotated reasoning results, then progressively explores and reinforces more plausible reasoning outcomes through reinforcement learning. We perform extensive evaluations on popular LVU benchmarks, including MLVU, VideoMME and LVBench. In our experiment, MemVid significantly outperforms existing RAG-based methods and popular LVU models, which demonstrate the effectiveness of our approach. Our model and source code will be made publicly available upon acceptance.
- Abstract(参考訳): Retrieval-augmented Generation(RAG)は、LVU(Long-Video Understanding)タスクに対処する強力な可能性を示す。
しかし、従来のRAG法は、多くの状況では利用できない明示的な検索クエリに依存しているため、基本的に制限されている。
この課題を克服するために,人間の認知記憶に触発された新しいRAGベースのLVUアプローチ(MemVid)を導入する。
提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
システムのメモリグラウンド推論能力を高め,最適なエンドツーエンド性能を実現するために,カリキュラム学習戦略を提案する。
このアプローチは、よく注釈付けされた推論結果に関する教師あり学習から始まり、強化学習を通じてより妥当な推論結果を徐々に探求し、強化する。
MLVU, VideoMME, LVBenchなど, 一般的なLVUベンチマークについて広範な評価を行った。
実験では,既存のRAG法やLVUモデルよりも有意に優れており,本手法の有効性を実証している。
私たちのモデルとソースコードは受け入れ次第公開します。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成する
これらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。
このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文 参考訳(メタデータ) (2024-11-11T09:03:52Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - A baseline on continual learning methods for video action recognition [15.157938674002793]
継続学習は、古典的な教師付きモデルの長期的制限を解決することを目的としている。
本稿では,映像行動認識における最先端の連続学習手法のベンチマークを示す。
論文 参考訳(メタデータ) (2023-04-20T14:20:43Z) - Class-Incremental Continual Learning into the eXtended DER-verse [17.90483695137098]
この研究は、我々の以前の提案であるDark Experience Replay(DER)の落とし穴を評価し、克服することを目的としています。
過去の記憶を常に書き直し、将来への期待を設定する方法に刺激されて、過去のデータに関する新しい情報を歓迎するために、リプレイ記憶を改訂する能力を備えたモデルを作りました。
これらの戦略の適用により、顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。