論文の概要: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video
Understanding in Novel Domains
- arxiv url: http://arxiv.org/abs/2311.18773v1
- Date: Thu, 30 Nov 2023 18:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:23:43.006299
- Title: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video
Understanding in Novel Domains
- Title(参考訳): spacewalk-18: 新たな領域におけるマルチモーダルおよびロングフォームプロシーデュラルビデオ理解のためのベンチマーク
- Authors: Rohan Myer Krishnan, Zitian Tang, Zhiqiu Yu and Chen Sun
- Abstract要約: 本研究では,(1)ステップ認識と(2)宇宙遊泳記録のデータセット上での映像内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
現状の手法が我々のベンチマークでは不十分であることが分かり、一般化可能な手続き型ビデオ理解モデルの目標がはるかに外れていることが証明された。
- 参考スコア(独自算出の注目度): 5.390814126989423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from videos is an emerging research area that enables robots to
acquire skills from human demonstrations, such as procedural videos. To do
this, video-language models must be able to obtain structured understandings,
such as the temporal segmentation of a demonstration into sequences of actions
and skills, and to generalize the understandings to novel domains. In pursuit
of this goal, we introduce Spacewalk-18, a benchmark containing two tasks: (1)
step recognition and (2) intra-video retrieval over a dataset of temporally
segmented and labeled tasks in International Space Station spacewalk
recordings. In tandem, the two tasks quantify a model's ability to make use of:
(1) out-of-domain visual information; (2) a high temporal context window; and
(3) multimodal (text + video) domains. This departs from existing benchmarks
for procedural video understanding, which typically deal with short context
lengths and can be solved with a single modality. Spacewalk-18, with its
inherent multimodal and long-form complexity, exposes the high difficulty of
task recognition and segmentation. We find that state-of-the-art methods
perform poorly on our benchmark, demonstrating that the goal of generalizable
procedural video understanding models is far out and underscoring the need to
develop new approaches to these tasks. Data, model, and code will be publicly
released.
- Abstract(参考訳): ビデオから学ぶことは、ロボットがプロシージャビデオのような人間のデモからスキルを得ることを可能にする、新たな研究分野である。
これを実現するために、ビデオ言語モデルは、デモの時間的セグメンテーションをアクションやスキルのシーケンスに分割し、新しいドメインへの理解を一般化するといった構造化された理解を得る必要がある。
この目的を追求するために,(1)ステップ認識と(2)国際宇宙ステーションの宇宙遊泳記録における時間分割およびラベル付きタスクのデータセット上のビデオ内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムにおいて、2つのタスクは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(テキスト+ビデオ)ドメインを使用するモデルの能力を定量化する。
これは、通常、短いコンテキストの長さを扱い、単一のモダリティで解決できる手続き的ビデオ理解のための既存のベンチマークから外れている。
Spacewalk-18は本質的にマルチモーダルで長期の複雑さを持つため、タスク認識とセグメンテーションの難易度が高い。
現状の手法は我々のベンチマークでは不十分であり、一般化可能な手続き型ビデオ理解モデルの目標が遠く離れており、これらの課題に対する新たなアプローチの必要性が強調されている。
データ、モデル、コードは公開される予定だ。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。