論文の概要: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video
Understanding in Novel Domains
- arxiv url: http://arxiv.org/abs/2311.18773v1
- Date: Thu, 30 Nov 2023 18:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:23:43.006299
- Title: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video
Understanding in Novel Domains
- Title(参考訳): spacewalk-18: 新たな領域におけるマルチモーダルおよびロングフォームプロシーデュラルビデオ理解のためのベンチマーク
- Authors: Rohan Myer Krishnan, Zitian Tang, Zhiqiu Yu and Chen Sun
- Abstract要約: 本研究では,(1)ステップ認識と(2)宇宙遊泳記録のデータセット上での映像内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
現状の手法が我々のベンチマークでは不十分であることが分かり、一般化可能な手続き型ビデオ理解モデルの目標がはるかに外れていることが証明された。
- 参考スコア(独自算出の注目度): 5.390814126989423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from videos is an emerging research area that enables robots to
acquire skills from human demonstrations, such as procedural videos. To do
this, video-language models must be able to obtain structured understandings,
such as the temporal segmentation of a demonstration into sequences of actions
and skills, and to generalize the understandings to novel domains. In pursuit
of this goal, we introduce Spacewalk-18, a benchmark containing two tasks: (1)
step recognition and (2) intra-video retrieval over a dataset of temporally
segmented and labeled tasks in International Space Station spacewalk
recordings. In tandem, the two tasks quantify a model's ability to make use of:
(1) out-of-domain visual information; (2) a high temporal context window; and
(3) multimodal (text + video) domains. This departs from existing benchmarks
for procedural video understanding, which typically deal with short context
lengths and can be solved with a single modality. Spacewalk-18, with its
inherent multimodal and long-form complexity, exposes the high difficulty of
task recognition and segmentation. We find that state-of-the-art methods
perform poorly on our benchmark, demonstrating that the goal of generalizable
procedural video understanding models is far out and underscoring the need to
develop new approaches to these tasks. Data, model, and code will be publicly
released.
- Abstract(参考訳): ビデオから学ぶことは、ロボットがプロシージャビデオのような人間のデモからスキルを得ることを可能にする、新たな研究分野である。
これを実現するために、ビデオ言語モデルは、デモの時間的セグメンテーションをアクションやスキルのシーケンスに分割し、新しいドメインへの理解を一般化するといった構造化された理解を得る必要がある。
この目的を追求するために,(1)ステップ認識と(2)国際宇宙ステーションの宇宙遊泳記録における時間分割およびラベル付きタスクのデータセット上のビデオ内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムにおいて、2つのタスクは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(テキスト+ビデオ)ドメインを使用するモデルの能力を定量化する。
これは、通常、短いコンテキストの長さを扱い、単一のモダリティで解決できる手続き的ビデオ理解のための既存のベンチマークから外れている。
Spacewalk-18は本質的にマルチモーダルで長期の複雑さを持つため、タスク認識とセグメンテーションの難易度が高い。
現状の手法は我々のベンチマークでは不十分であり、一般化可能な手続き型ビデオ理解モデルの目標が遠く離れており、これらの課題に対する新たなアプローチの必要性が強調されている。
データ、モデル、コードは公開される予定だ。
関連論文リスト
- The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。