論文の概要: Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline
- arxiv url: http://arxiv.org/abs/2603.05484v1
- Date: Thu, 05 Mar 2026 18:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.382337
- Title: Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline
- Title(参考訳): マルチモーダルライフロング理解に向けて:データセットとエージェントベースライン
- Authors: Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu,
- Abstract要約: MM-Lifelongはマルチモーダルライフロング理解のために設計されたデータセットである。
撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
- 参考スコア(独自算出の注目度): 58.585692088008905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While datasets for video understanding have scaled to hour-long durations, they typically consist of densely concatenated clips that differ from natural, unscripted daily life. To bridge this gap, we introduce MM-Lifelong, a dataset designed for Multimodal Lifelong Understanding. Comprising 181.1 hours of footage, it is structured across Day, Week, and Month scales to capture varying temporal densities. Extensive evaluations reveal two critical failure modes in current paradigms: end-to-end MLLMs suffer from a Working Memory Bottleneck due to context saturation, while representative agentic baselines experience Global Localization Collapse when navigating sparse, month-long timelines. To address this, we propose the Recursive Multimodal Agent (ReMA), which employs dynamic memory management to iteratively update a recursive belief state, significantly outperforming existing methods. Finally, we establish dataset splits designed to isolate temporal and domain biases, providing a rigorous foundation for future research in supervised learning and out-of-distribution generalization.
- Abstract(参考訳): ビデオ理解のためのデータセットは1時間に及んだが、典型的には、自然で記述されていない日常生活とは異なる密集したクリップで構成されている。
このギャップを埋めるために,マルチモーダルライフロング理解のためのデータセットMM-Lifelongを導入する。
撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
大規模な評価では、現在のパラダイムにおける2つの重要な障害モードが明らかになっている: エンドツーエンドのMLLMは、コンテキスト飽和によるワーキングメモリボトルネックに苦しむ一方で、代理エージェントのベースラインは、スパースな1ヶ月のタイムラインをナビゲートする際にグローバルなローカライゼーションの崩壊を経験する。
これを解決するために,動的メモリ管理を用いて再帰的信念状態を反復的に更新するRecursive Multimodal Agent (ReMA)を提案する。
最後に、時間的偏見と領域的偏見の分離を目的としたデータセット分割を構築し、教師付き学習とアウト・オブ・ディストリビューションの一般化における将来の研究のための厳密な基盤を提供する。
関連論文リスト
- UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - RHYTHM: Reasoning with Hierarchical Temporal Tokenization for Human Mobility [9.200793414310182]
RHYTHM(Reasoning with Hierarchical Temporal Tokenization for Human Mobility)を導入した。
汎用予測器や推論器として,大規模言語モデル (LLM) を用いる。
RHYTHMは総合的な精度が2.4%、週末に5.0%、トレーニング時間が24.6%減少している。
論文 参考訳(メタデータ) (2025-09-27T04:55:56Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文 参考訳(メタデータ) (2025-06-28T15:24:05Z) - DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
本稿では,HERMESについて紹介する。
2つの汎用モジュールは、既存のビデオ言語モデルを強化したり、スタンドアロンシステムとして運用することができる。
HERMESは、ゼロショットとフル教師付き設定の両方において、複数の長ビデオ理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-30T17:52:55Z) - Toward Time-Continuous Data Inference in Sparse Urban CrowdSensing [5.105223708885987]
Mobile Crowd Sensing(MCS)は,モバイルユーザとそのスマートポータブルデバイスを活用して,さまざまな実世界のタスクを実行する,有望なパラダイムである。
Sparse MCSはより実用的な代替として出現し、限られた数のターゲットからデータを収集し、推論アルゴリズムを利用して完全なセンシングマップを完成させている。
本稿では,センササイクルの細粒度化,すなわち最小時間単位への分割から,より正確で連続的な完了へと進む。
論文 参考訳(メタデータ) (2024-08-27T19:25:41Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。