論文の概要: Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs
- arxiv url: http://arxiv.org/abs/2502.15457v1
- Date: Fri, 21 Feb 2025 13:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:47.521151
- Title: Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs
- Title(参考訳): ビデオ中のストリーミングイベントをMLLMで理解する
- Authors: Gengyuan Zhang, Mingcong Ding, Tong Liu, Yao Zhang, Volker Tresp,
- Abstract要約: 記憶を文脈として活用することで、MLLMはビデオイベントをよりよく理解できるようになる。
このような記憶は、先行する出来事の予測に依存するため、誤報を含ませ、非難や性能低下につながる可能性がある。
本稿では,メモリ強化イベント理解のためのフラグレーションを緩和する,フラグレーション対応メモリ修正手法を提案する。
- 参考スコア(独自算出の注目度): 28.35196259115078
- License:
- Abstract: Multimodal large language models (MLLMs) have demonstrated strong performance in understanding videos holistically, yet their ability to process streaming videos-videos are treated as a sequence of visual events-remains underexplored. Intuitively, leveraging past events as memory can enrich contextual and temporal understanding of the current event. In this paper, we show that leveraging memories as contexts helps MLLMs better understand video events. However, because such memories rely on predictions of preceding events, they may contain misinformation, leading to confabulation and degraded performance. To address this, we propose a confabulation-aware memory modification method that mitigates confabulated memory for memory-enhanced event understanding.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) はビデオの全体的理解において高い性能を示してきたが、ストリーミングビデオの処理能力は、未調査の視覚事象の列として扱われる。
直感的には、過去のイベントをメモリとして活用することで、現在のイベントのコンテキスト的および時間的理解を深めることができる。
本稿では,記憶を文脈として活用することで,MLLMが映像イベントをよりよく理解できるようになることを示す。
しかし、こうした記憶は先行する出来事の予測に依存するため、誤報を含ませる可能性があり、非難され、性能が低下する。
そこで本研究では,メモリ強化イベント理解のためのメモリ分割を緩和する,メモリ分割対応メモリ修正手法を提案する。
関連論文リスト
- EventVL: Understand Event Streams via Multimodal Large Language Model [18.57504605615107]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - Episodic Memories Generation and Evaluation Benchmark for Large Language Models [7.660368798066376]
我々は、人間のような認知に向けてAIを前進させるためには、エピソード記憶能力を大規模言語モデルに統合することが不可欠であると主張している。
本研究では,時間的・空間的文脈をカプセル化し,関連する実体を包含し,詳細な記述を行うための構造的アプローチを開発する。
我々は、汚染のない独自のエピソードメモリベンチマークを合成し、LLM性能を評価するためにオープンソースコードとデータセットをリリースする。
論文 参考訳(メタデータ) (2025-01-21T02:16:13Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。