論文の概要: Bisecle: Binding and Separation in Continual Learning for Video Language Understanding
- arxiv url: http://arxiv.org/abs/2507.00469v1
- Date: Tue, 01 Jul 2025 06:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.430602
- Title: Bisecle: Binding and Separation in Continual Learning for Video Language Understanding
- Title(参考訳): Bisecle: ビデオ言語理解のための連続学習におけるバインディングと分離
- Authors: Yue Tan, Xiaoqian Hu, Hao Xue, Celso De Melo, Flora D. Salim,
- Abstract要約: 海馬における高速な結合とパターン分離機構に着想を得たビデオ言語連続学習のためのBisecleを提案する。
Bisecleは、いくつかのVideoQAベンチマークにおいて、忘れを緩和し、クロスタスクの一般化を強化する。
- 参考スコア(独自算出の注目度): 11.710573955384511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier vision-language models (VLMs) have made remarkable improvements in video understanding tasks. However, real-world videos typically exist as continuously evolving data streams (e.g., dynamic scenes captured by wearable glasses), necessitating models to continually adapt to shifting data distributions and novel scenarios. Considering the prohibitive computational costs of fine-tuning models on new tasks, usually, a small subset of parameters is updated while the bulk of the model remains frozen. This poses new challenges to existing continual learning frameworks in the context of large multimodal foundation models, i.e., catastrophic forgetting and update conflict. While the foundation models struggle with parameter-efficient continual learning, the hippocampus in the human brain has evolved highly efficient mechanisms for memory formation and consolidation. Inspired by the rapid Binding and pattern separation mechanisms in the hippocampus, in this work, we propose Bisecle for video-language continual learning, where a multi-directional supervision module is used to capture more cross-modal relationships and a contrastive prompt learning scheme is designed to isolate task-specific knowledge to facilitate efficient memory storage. Binding and separation processes further strengthen the ability of VLMs to retain complex experiences, enabling robust and efficient continual learning in video understanding tasks. We perform a thorough evaluation of the proposed Bisecle, demonstrating its ability to mitigate forgetting and enhance cross-task generalization on several VideoQA benchmarks.
- Abstract(参考訳): フロンティアビジョン言語モデル(VLM)は、ビデオ理解タスクにおいて顕著に改善されている。
しかし、現実世界のビデオは通常、連続的に進化するデータストリーム(例えば、ウェアラブルグラスが捉えたダイナミックなシーン)として存在し、シフトするデータ配信や新しいシナリオに継続的に適応するためにモデルを必要とします。
新たなタスクにおける微調整モデルの禁止的な計算コストを考えると、通常はパラメータの小さなサブセットが更新され、モデルの大部分が凍結されている。
これは、大規模なマルチモーダル基盤モデル、すなわち破滅的な忘れ忘れと更新競合の文脈において、既存の継続的学習フレームワークに新たな課題をもたらす。
基礎モデルはパラメータ効率のよい連続学習に苦慮する一方で、ヒト脳の海馬は記憶の形成と統合のための非常に効率的なメカニズムを進化させてきた。
本研究は,海馬における素早い結合・パターン分離機構に着想を得て,多方向監視モジュールを用いて相互関係を把握し,タスク固有の知識を分離し,効率的なメモリ記憶を容易にすることを目的とした,ビデオ言語連続学習のためのBisecleを提案する。
結合と分離のプロセスは、VLMの複雑な体験を維持する能力をさらに強化し、ビデオ理解タスクにおける堅牢で効率的な継続的な学習を可能にする。
提案したBisecleを徹底的に評価し,ビデオQAベンチマーク上でのタスク間の一般化を緩和し,拡張する能力を示す。
関連論文リスト
- CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。