論文の概要: Action100M: A Large-scale Video Action Dataset
- arxiv url: http://arxiv.org/abs/2601.10592v1
- Date: Thu, 15 Jan 2026 17:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.239668
- Title: Action100M: A Large-scale Video Action Dataset
- Title(参考訳): Action100M: 大規模ビデオアクションデータセット
- Authors: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung,
- Abstract要約: Action100Mは、1.2Mのインターネット教育ビデオ(14.6年)から構築された大規模なデータセットである。
O(1億)の時間的局所化セグメントを生成し、オープンな語彙のアクション監視と豊富なキャプションを提供する。
- 参考スコア(独自算出の注目度): 33.33351591459689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.
- Abstract(参考訳): 視覚的な観察から物理的な行動を推測することは、物理的な世界でマシンインテリジェンスを前進させる基本的な能力である。
これを実現するには、幅広いドメインにまたがる大規模でオープンなビデオアクションデータセットが必要です。
我々は、1.2万のインターネット指導ビデオ(14.6年)から構築された大規模データセットであるAction100Mを導入し、O(1億)時間的局所化セグメントを生成し、オープン語彙アクションの監視とリッチキャプションを提供する。
Action100Mは、完全に自動化されたパイプラインによって生成される
i)V-JEPA2埋め込みを用いた階層的時間分割を行う。
(二)多段枠及び字幕を「字幕木」として整理し、
(iii)複数ラウンドのセルフリファイン手順に基づく推論モデル(GPT-OSS-120B)でエビデンスを集約し、構造化アノテーション(ブリーフ/詳細アクション、アクター、ブリーフ/詳細キャプション)を出力する。
VL-JEPA on Action100Mのトレーニングでは、さまざまなアクション認識ベンチマークにおいて、一貫性のあるデータスケーリングの改善と強力なゼロショットパフォーマンスを示し、ビデオ理解と世界モデリングにおけるスケーラブルな研究の新たな基盤としてAction100Mを確立している。
関連論文リスト
- ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries [77.41072125938636]
ARC-Chapterは100万以上のビデオチャプターで訓練された最初の大規模ビデオチャプターモデルである。
ASRの書き起こし、シーンテキスト、ビジュアルキャプションを、短いタイトルから長い要約まで、複数レベルのアノテーションに統一する。
F1得点は14.0%、SODA得点は11.3%で前年最多となった。
論文 参考訳(メタデータ) (2025-11-18T10:53:14Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - Temporal Alignment Networks for Long-term Video [103.69904379356413]
本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
論文 参考訳(メタデータ) (2022-04-06T17:59:46Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。