論文の概要: Multi-model learning by sequential reading of untrimmed videos for
action recognition
- arxiv url: http://arxiv.org/abs/2401.14675v1
- Date: Fri, 26 Jan 2024 06:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:51:53.589847
- Title: Multi-model learning by sequential reading of untrimmed videos for
action recognition
- Title(参考訳): アクション認識のための非トリミングビデオの逐次読み出しによるマルチモデル学習
- Authors: Kodai Kamiya, Toru Tamaki
- Abstract要約: そこで本稿では,未編集映像から連続的にビデオクリップを抽出して学習する手法を提案する。
提案手法は、クリップを複数のモデルに供給することでクリップ間の相関を低減し、これらのモデルをフェデレート学習により同期させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for learning videos by aggregating multiple models by
sequentially extracting video clips from untrimmed video. The proposed method
reduces the correlation between clips by feeding clips to multiple models in
turn and synchronizes these models through federated learning. Experimental
results show that the proposed method improves the performance compared to the
no synchronization.
- Abstract(参考訳): 本稿では,複数のモデルを集約して動画を学習する手法を提案する。
提案手法は、クリップを複数のモデルに供給することでクリップ間の相関を低減し、これらのモデルをフェデレート学習により同期させる。
実験結果から,提案手法は非同期よりも性能が向上することがわかった。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Probabilistic Representations for Video Contrastive Learning [64.47354178088784]
本稿では,確率的表現と対比学習を橋渡しする自己教師型表現学習法を提案する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避し、クリップの拡張ビューを生成することができる。
論文 参考訳(メタデータ) (2022-04-08T09:09:30Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Continual Learning of Predictive Models in Video Sequences via
Variational Autoencoders [6.698751933050415]
本稿では,映像系列における将来のフレームの推論を容易にする予測モデルの連続的な学習手法を提案する。
初期変分オートコーダと、完全に接続されたニューラルネットワークのセットを用いて、潜時空間レベルでの映像フレームとそのダイナミクスの出現をそれぞれ学習する。
論文 参考訳(メタデータ) (2020-06-02T21:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。