論文の概要: What Can We Learn from Harry Potter? An Exploratory Study of Visual Representation Learning from Atypical Videos
- arxiv url: http://arxiv.org/abs/2508.21770v2
- Date: Mon, 08 Sep 2025 12:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.336882
- Title: What Can We Learn from Harry Potter? An Exploratory Study of Visual Representation Learning from Atypical Videos
- Title(参考訳): ハリー・ポッターから何が学べるか : 非定型映像からの視覚表現学習の探索的研究
- Authors: Qiyue Sun, Qiming Huang, Yang Yang, Hongjun Wang, Jianbo Jiao,
- Abstract要約: 各種の異常な非定型データからなる新しいビデオデータセットを収集する。
表現学習のためのモデルトレーニングプロセスにそれらを供給します。
非定型データによる単純な学習アプローチであっても、パフォーマンスは一貫して向上することがわかった。
- 参考スコア(独自算出の注目度): 19.583084535917646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans usually show exceptional generalisation and discovery ability in the open world, when being shown uncommon new concepts. Whereas most existing studies in the literature focus on common typical data from closed sets, open-world novel discovery is under-explored in videos. In this paper, we are interested in asking: What if atypical unusual videos are exposed in the learning process? To this end, we collect a new video dataset consisting of various types of unusual atypical data (e.g., sci-fi, animation, etc.). To study how such atypical data may benefit open-world learning, we feed them into the model training process for representation learning. Focusing on three key tasks in open-world learning: out-of-distribution (OOD) detection, novel category discovery (NCD), and zero-shot action recognition (ZSAR), we found that even straightforward learning approaches with atypical data consistently improve performance across various settings. Furthermore, we found that increasing the categorical diversity of the atypical samples further boosts OOD detection performance. Additionally, in the NCD task, using a smaller yet more semantically diverse set of atypical samples leads to better performance compared to using a larger but more typical dataset. In the ZSAR setting, the semantic diversity of atypical videos helps the model generalise better to unseen action classes. These observations in our extensive experimental evaluations reveal the benefits of atypical videos for visual representation learning in the open world, together with the newly proposed dataset, encouraging further studies in this direction. The project page is at: https://julysun98.github.io/atypical_dataset.
- Abstract(参考訳): 人間は通常、珍しい新しい概念が示されるとき、オープンな世界では例外的な一般化と発見能力を示す。
既存の文献では、クローズド・セットの一般的な典型データに焦点が当てられているが、オープン・ワールド・ノベル・ディスカバリーはビデオでは未発見である。
本稿では,非定型的なビデオが学習過程に露出している場合について質問する。
この目的のために、様々な非定型データ(例えば、SF、アニメーションなど)からなる新しいビデオデータセットを収集する。
このような非定型データがどのようにオープンワールド学習の恩恵を受けるかを研究するため、表現学習のためのモデルトレーニングプロセスにこれらを投入する。
オープンワールド学習における3つの重要な課題、すなわちアウト・オブ・ディストリビューション(OOD)の検出、新しいカテゴリ発見(NCD)、ゼロショットアクション認識(ZSAR)に着目し、非定型データによる単純な学習アプローチでさえ、様々な設定におけるパフォーマンスを一貫して改善することを発見した。
さらに,非定型サンプルの分類的多様性の増大により,OOD検出性能がさらに向上することが判明した。
さらに、NCDタスクでは、より小さく、より意味的に多様性のある非定型的なサンプルセットを使用することで、より大きながより典型的なデータセットを使用するよりもパフォーマンスが向上する。
ZSARの設定では、非定型ビデオの意味的な多様性は、モデルが目に見えないアクションクラスをより一般化するのに役立ちます。
これらの実験結果から、オープンワールドにおける非定型ビデオによる視覚表現学習のメリットが明らかとなり、新たなデータセットが提案され、この方向のさらなる研究が促進された。
プロジェクトページは以下の通りである。
関連論文リスト
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - BOWL: A Deceptively Simple Open World Learner [20.856520787551453]
従来の機械学習は静的なベンチマークに優れていますが、現実の世界は動的であり、テストセットと同じくらい慎重にキュレートされることはめったにありません。
本稿では,ニューラルネットワークにはすでに,オープンワールド学習者になるための強力な触媒が備わっていると仮定する。
本手法は,分布内および分布外サンプルを検出し,情報的データポイントを選択し,モデルを継続的に更新するための効果的な戦略を導出する。
論文 参考訳(メタデータ) (2024-02-07T13:04:35Z) - Universal Time-Series Representation Learning: A Survey [14.340399848964662]
時系列データは、現実世界のシステムやサービスのあらゆる部分に存在する。
ディープラーニングは、時系列データから隠れたパターンや特徴を抽出する際、顕著な性能を示した。
論文 参考訳(メタデータ) (2024-01-08T08:00:04Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Open-World Semi-Supervised Learning [66.90703597468377]
本稿では,従来のクラスを認識するためにモデルを必要とする,新しいオープンワールド半教師付き学習環境を提案する。
データの分類とクラスタ化を同時に行うアプローチであるORCAを提案する。
我々は,ORCAが新しいクラスを正確に発見し,ベンチマーク画像分類データセット上で以前に見られたクラスにサンプルを割り当てることを示した。
論文 参考訳(メタデータ) (2021-02-06T07:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。