Fugu-MT 論文翻訳(概要): Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding

論文の概要: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding

arxiv url: http://arxiv.org/abs/2311.18773v2
Date: Fri, 22 Mar 2024 01:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 22:30:18.432575
Title: Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding
Title（参考訳）: Spacewalk-18: マルチモーダルおよびロングフォームプロシージャビデオ理解のためのベンチマーク
Authors: Rohan Myer Krishnan, Zitian Tang, Zhiqiu Yu, Chen Sun,
Abstract要約: 本研究では,(1)ステップ認識と(2)動画内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。タンデムでは、この2つのタスクは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(視覚と音声)ドメインを利用するモデルの能力の定量化を行う。現状の手法は我々のベンチマークでは性能が良くないことがわかったが、異なるモダリティにまたがるより長い時間的文脈からの情報を組み込むことで改善が得られる。
参考スコア（独自算出の注目度）: 4.9347081318119015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from videos is an emerging research area that enables robots to acquire skills from human demonstrations, such as procedural videos. To do this, video-language models must be able to obtain structured understandings, such as the temporal segmentation of a demonstration into sequences of actions and skills, and to generalize the understandings to novel domains. In pursuit of this goal, we introduce Spacewalk-18, a benchmark containing two tasks: (1) step recognition and (2) intra-video retrieval over a dataset of temporally segmented and labeled tasks in International Space Station spacewalk recordings. In tandem, the two tasks quantify a model's ability to make use of: (1) out-of-domain visual information; (2) a high temporal context window; and (3) multimodal (e.g. visual and speech) domains. This departs from existing benchmarks for procedural video understanding, which typically deal with short context lengths and can be solved with a single modality. Spacewalk-18, with its inherent multimodal and long-form complexity, exposes the high difficulty of task recognition and segmentation. We find that state-of-the-art methods perform poorly on our benchmark, but improvements can be obtained by incorporating information from longer-range temporal context across different modalities. Our experiments underscore the need to develop new approaches to these tasks. Data, model, and code will be released at https://brown-palm.github.io/Spacewalk-18/.
Abstract（参考訳）: ビデオから学ぶことは、ロボットがプロシージャビデオのような人間のデモからスキルを習得することを可能にする、新たな研究分野である。これを実現するために、ビデオ言語モデルは、デモの時間的セグメンテーションをアクションやスキルのシーケンスに分割し、新しいドメインへの理解を一般化するといった構造化された理解を得る必要がある。この目的を追求するために,(1)ステップ認識と(2)国際宇宙ステーションの宇宙遊泳記録における時間分割およびラベル付きタスクのデータセット上のビデオ内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。タンデムでは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(例えば視覚と音声)ドメインを利用するモデルの能力の定量化を行う。これは、通常、短いコンテキストの長さを扱い、単一のモダリティで解決できる手続き的ビデオ理解のための既存のベンチマークから外れている。 Spacewalk-18は、本質的にマルチモーダルで長期の複雑さを持つため、タスク認識とセグメンテーションの難しさが顕在化している。現状の手法は我々のベンチマークでは性能が良くないことがわかったが、異なるモダリティにまたがるより長い時間的文脈からの情報を組み込むことで改善が得られる。我々の実験は、これらのタスクに対する新しいアプローチの必要性を浮き彫りにした。データ、モデル、コードはhttps://brown-palm.github.io/Spacewalk-18/でリリースされる。

関連論文リスト

DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding [19.50051728766238]
ダイナミックイメージ(DynImg)と呼ばれる革新的な映像表現手法を提案する。具体的には,非キーフレームの集合を時間的プロンプトとして導入し,高速移動物体を含む空間領域を強調する。視覚的特徴抽出の過程で、これらのプロンプトは、これらの領域に対応するきめ細かい空間的特徴にさらなる注意を払うようモデルに誘導する。
論文参考訳（メタデータ） (2025-07-21T12:50:49Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。 T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文参考訳（メタデータ） (2025-03-19T10:50:03Z)
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文参考訳（メタデータ） (2024-11-15T03:45:09Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文参考訳（メタデータ） (2023-03-29T19:38:23Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文参考訳（メタデータ） (2023-02-16T04:00:03Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文参考訳（メタデータ） (2022-06-18T00:26:52Z)
Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。 AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文参考訳（メタデータ） (2021-11-22T18:59:58Z)
Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文参考訳（メタデータ） (2021-09-08T17:59:01Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。 BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文参考訳（メタデータ） (2020-10-20T07:43:00Z)
Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文参考訳（メタデータ） (2020-10-16T13:08:50Z)
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-28T12:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。