論文の概要: Memory Storyboard: Leveraging Temporal Segmentation for Streaming Self-Supervised Learning from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2501.12254v1
- Date: Tue, 21 Jan 2025 16:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:18.193985
- Title: Memory Storyboard: Leveraging Temporal Segmentation for Streaming Self-Supervised Learning from Egocentric Videos
- Title(参考訳): メモリストーリーボード:エゴセントリックビデオから自己教師付き学習をストリーミングするための時間セグメンテーションを活用する
- Authors: Yanlai Yang, Mengye Ren,
- Abstract要約: 本研究では,長大な実世界のエゴセントリックなビデオストリームからの自己教師型学習のストリーミングについて検討する。
人間の知覚と記憶における事象セグメンテーションのメカニズムに着想を得て,我々は「記憶ストーリーボード」を提案する。
効率的な時間分割を実現するために,2階層のメモリ階層を提案する。
- 参考スコア(独自算出の注目度): 13.687045169487774
- License:
- Abstract: Self-supervised learning holds the promise to learn good representations from real-world continuous uncurated data streams. However, most existing works in visual self-supervised learning focus on static images or artificial data streams. Towards exploring a more realistic learning substrate, we investigate streaming self-supervised learning from long-form real-world egocentric video streams. Inspired by the event segmentation mechanism in human perception and memory, we propose "Memory Storyboard" that groups recent past frames into temporal segments for more effective summarization of the past visual streams for memory replay. To accommodate efficient temporal segmentation, we propose a two-tier memory hierarchy: the recent past is stored in a short-term memory, and the storyboard temporal segments are then transferred to a long-term memory. Experiments on real-world egocentric video datasets including SAYCam and KrishnaCam show that contrastive learning objectives on top of storyboard frames result in semantically meaningful representations which outperform those produced by state-of-the-art unsupervised continual learning methods.
- Abstract(参考訳): 自己教師型学習は、現実世界の継続的未処理データストリームから優れた表現を学ぶという約束を持っている。
しかし、視覚的な自己教師型学習における既存の研究のほとんどは、静的画像や人工データストリームに焦点を当てている。
より現実的な学習基盤を探究するために、長大な実世界のエゴセントリックなビデオストリームからの自己教師型学習のストリーミングについて検討する。
人間の知覚と記憶における事象のセグメンテーション機構に着想を得て,記憶再生のための過去の視覚ストリームをより効果的に要約するために,過去のフレームを時間セグメントにグループ化する「メモリストーリーボード」を提案する。
効率的な時間セグメント化を実現するため,過去を短期記憶に格納し,ストーリーボードの時間セグメントを長期記憶に転送する2階層記憶階層を提案する。
SAYCamやKrishnaCamといった実世界のエゴセントリックなビデオデータセットの実験では、ストーリーボードのフレーム上の対照的な学習目標が意味的に意味のある表現をもたらし、最先端の教師なしの継続的学習手法によって生成されたものより優れていることが示されている。
関連論文リスト
- StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory [21.300636683882338]
本稿では,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。
具体的には、移動物体に先立って空間的と考えられる歴史的特徴を伝えるために、短期記憶を利用する。
また、投影と非対称畳み込みを備えた多視点エンコーダを提案し、異なる表現で物体の運動特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-25T09:51:09Z) - Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement [56.26688591324508]
本稿では,ビデオ蒸留に関する最初の体系的研究を行い,時間的圧縮を分類する分類法を提案する。
本研究は, 蒸留時に時間情報がよく学習されないこと, 合成データの時間次元がほとんど寄与しないことを明らかにする。
提案手法は,メモリストレージ予算の大幅な削減を図りながら,ビデオデータセットの最先端化を実現している。
論文 参考訳(メタデータ) (2023-12-01T05:59:08Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。