論文の概要: Memory-enhanced Retrieval Augmentation for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2503.09149v2
- Date: Fri, 20 Jun 2025 07:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.589729
- Title: Memory-enhanced Retrieval Augmentation for Long Video Understanding
- Title(参考訳): 長期ビデオ理解のための記憶強調検索
- Authors: Huaying Yuan, Zheng Liu, Minghao Qin, Hongjin Qian, Yan Shu, Zhicheng Dou, Ji-Rong Wen, Nicu Sebe,
- Abstract要約: 本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。
提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。
MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
- 参考スコア(独自算出の注目度): 91.7163732531159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient long-video understanding~(LVU) remains a challenging task in computer vision. Current long-context vision-language models~(LVLMs) suffer from information loss due to compression and brute-force downsampling. While retrieval-augmented generation (RAG) methods mitigate this issue, their applicability is limited due to explicit query dependency. To overcome this challenge, we introduce a novel memory-enhanced RAG-based approach called MemVid, which is inspired by the cognitive memory of human beings. Our approach operates in four basic steps: 1) memorizing holistic video information, 2) reasoning about the task's information needs based on memory, 3) retrieving critical moments based on the information needs, and 4) focusing on the retrieved moments to produce the final answer. To enhance the system's memory-grounded reasoning capabilities while achieving optimal end-to-end performance, we propose a curriculum learning strategy. This approach begins with supervised learning on well-annotated reasoning results, then progressively explores and reinforces more plausible reasoning outcomes through reinforcement learning. We perform extensive evaluations on popular LVU benchmarks, including MLVU, VideoMME and LVBench. In our experiments, MemVid demonstrates superior efficiency and effectiveness compared to both LVLMs and RAG methods.
- Abstract(参考訳): LVU)はコンピュータビジョンにおいて依然として困難な課題である。
現在の長文視覚言語モデル~(LVLM)は、圧縮とブルートフォースダウンサンプリングによる情報損失に悩まされている。
検索拡張生成(RAG)メソッドはこの問題を緩和するが、明示的なクエリ依存のため適用性は制限される。
この課題を克服するために,人間の認知記憶にインスパイアされた,新しい記憶強調型RAGベースのアプローチであるMemVidを導入する。
私たちのアプローチは4つの基本的なステップで機能します。
1)全体像映像情報を記憶すること。
2 課題に関する情報を記憶に基づいて推論すること。
3)情報ニーズに基づく重要な瞬間の回収,及び
4) 最終回答を得るために回収した瞬間に着目した。
最適なエンドツーエンド性能を達成しつつ,システムのメモリグラウンド推論能力を向上させるために,カリキュラム学習戦略を提案する。
このアプローチは、よく注釈付けされた推論結果に関する教師あり学習から始まり、強化学習を通じてより妥当な推論結果を徐々に探求し、強化する。
MLVU, VideoMME, LVBenchなど, 一般的なLVUベンチマークについて広範な評価を行った。
実験では,LVLM法とRAG法と比較して,MemVidの効率と有効性を示した。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation [19.48826538310603]
大規模視覚言語モデル(LVLM)からより効率的な強化学習エージェントへ知識を抽出するフレームワークであるLVLM to Policy(LVLM2P)を紹介する。
提案手法はLVLMを教師として活用し,RLエージェントが収集した軌跡に基づく指導行動を提供する。
LVLM2Pは,ベースラインRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-16T13:15:54Z) - MemInsight: Autonomous Memory Augmentation for LLM Agents [12.620141762922168]
セマンティックなデータ表現と検索機構を強化するために,自動メモリ拡張手法であるMemInsightを提案する。
提案手法の有効性を,会話推薦,質問応答,イベント要約の3つのシナリオで実証的に検証した。
論文 参考訳(メタデータ) (2025-03-27T17:57:28Z) - Elevating Visual Question Answering through Implicitly Learned Reasoning Pathways in LVLMs [0.0]
MF-SQ-LLaVAは,エンド・ツー・エンドのトレーニングを通じて暗黙の自己問合せを可能にすることで,LVLMを強化する新しいアプローチである。
提案手法では,サブクエストと解答ペアからなる推論チェーンを用いて,視覚的質問応答データセットを増強する。
我々はScienceQAとVQAv2データセットに関する広範な実験を行い、MF-SQ-LLaVAが既存の最先端モデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-03-18T19:29:07Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成する
これらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。
このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文 参考訳(メタデータ) (2024-11-11T09:03:52Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Memory-Efficient Continual Learning Object Segmentation for Long Video [7.9190306016374485]
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
論文 参考訳(メタデータ) (2023-09-26T21:22:03Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Class-Incremental Continual Learning into the eXtended DER-verse [17.90483695137098]
この研究は、我々の以前の提案であるDark Experience Replay(DER)の落とし穴を評価し、克服することを目的としています。
過去の記憶を常に書き直し、将来への期待を設定する方法に刺激されて、過去のデータに関する新しい情報を歓迎するために、リプレイ記憶を改訂する能力を備えたモデルを作りました。
これらの戦略の適用により、顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:14:30Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。