論文の概要: Switch-a-View: Few-Shot View Selection Learned from Edited Videos
- arxiv url: http://arxiv.org/abs/2412.18386v1
- Date: Tue, 24 Dec 2024 12:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:55.718055
- Title: Switch-a-View: Few-Shot View Selection Learned from Edited Videos
- Title(参考訳): Switch-a-View: 編集ビデオから学んだいくつかのショットビュー選択
- Authors: Sagnik Majumder, Tushar Nagarajan, Ziad Al-Halah, Kristen Grauman,
- Abstract要約: ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSwitch-a-Viewを導入する。
このアプローチの鍵となる洞察は、ラベルのない、しかし、人間が編集したビデオサンプルから、そのようなモデルをトレーニングする方法です。
- 参考スコア(独自算出の注目度): 71.01549400773197
- License:
- Abstract: We introduce Switch-a-View, a model that learns to automatically select the viewpoint to display at each timepoint when creating a how-to video. The key insight of our approach is how to train such a model from unlabeled--but human-edited--video samples. We pose a pretext task that pseudo-labels segments in the training videos for their primary viewpoint (egocentric or exocentric), and then discovers the patterns between those view-switch moments on the one hand and the visual and spoken content in the how-to video on the other hand. Armed with this predictor, our model then takes an unseen multi-view video as input and orchestrates which viewpoint should be displayed when. We further introduce a few-shot training setting that permits steering the model towards a new data domain. We demonstrate our idea on a variety of real-world video from HowTo100M and Ego-Exo4D and rigorously validate its advantages.
- Abstract(参考訳): ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSwitch-a-Viewを導入する。
このアプローチのキーとなる洞察は、ラベルのない、しかし人間の編集されたビデオサンプルから、そのようなモデルをトレーニングする方法です。
トレーニングビデオ中の擬似ラベルを主観的視点(自我的あるいは自我的視点)に当てはめ、その一方のビュー・スウィッチモーメントと、他方のハウツービデオにおける視覚的・音声的コンテンツとの間のパターンを検出する。
この予測器を使って、我々のモデルは見知らぬマルチビュービデオを入力として取り、どの視点を表示するべきかを整理する。
さらに、新しいデータドメインに向けてモデルをステアリングできる、数ショットのトレーニング設定を導入しています。
われわれは、HowTo100MとEgo-Exo4Dの様々な現実世界のビデオでこのアイデアを実証し、その利点を厳格に検証した。
関連論文リスト
- An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。