論文の概要: MS4UI: A Dataset for Multi-modal Summarization of User Interface Instructional Videos
- arxiv url: http://arxiv.org/abs/2506.12623v1
- Date: Sat, 14 Jun 2025 20:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.593034
- Title: MS4UI: A Dataset for Multi-modal Summarization of User Interface Instructional Videos
- Title(参考訳): MS4UI: ユーザインタフェースインストラクショナルビデオのマルチモーダル要約のためのデータセット
- Authors: Yuan Zang, Hao Tan, Seunghyun Yoon, Franck Dernoncourt, Jiuxiang Gu, Kushal Kafle, Chen Sun, Trung Bui,
- Abstract要約: 本研究の目的は,テキスト・インストラクションとキー・ビデオ・フレームの形式での学習を効果的に行うための指導ビデオのマルチモーダル・サマリゼーションをユーザに提供することである。
このギャップを埋めるために,ユーザインタフェース(UI)の命令映像要約のための新しいベンチマークを提案する。
2,413のUIインストラクショナルビデオのデータセットを収集し、167時間以上にわたっています。
- 参考スコア(独自算出の注目度): 77.59558834294134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study multi-modal summarization for instructional videos, whose goal is to provide users an efficient way to learn skills in the form of text instructions and key video frames. We observe that existing benchmarks focus on generic semantic-level video summarization, and are not suitable for providing step-by-step executable instructions and illustrations, both of which are crucial for instructional videos. We propose a novel benchmark for user interface (UI) instructional video summarization to fill the gap. We collect a dataset of 2,413 UI instructional videos, which spans over 167 hours. These videos are manually annotated for video segmentation, text summarization, and video summarization, which enable the comprehensive evaluations for concise and executable video summarization. We conduct extensive experiments on our collected MS4UI dataset, which suggest that state-of-the-art multi-modal summarization methods struggle on UI video summarization, and highlight the importance of new methods for UI instructional video summarization.
- Abstract(参考訳): 本研究の目的は,テキスト・インストラクションとキー・ビデオ・フレームの形式での学習を効果的に行うための指導ビデオのマルチモーダル・サマリゼーションをユーザに提供することである。
既存のベンチマークでは,ジェネリック・セマンティック・レベルの映像要約に重点を置いており,ステップバイステップのインストラクションやイラストを提供するには適していない。
このギャップを埋めるために,ユーザインタフェース(UI)の命令映像要約のための新しいベンチマークを提案する。
2,413のUIインストラクショナルビデオのデータセットを収集し、167時間以上にわたっています。
これらのビデオは手動でビデオセグメンテーション、テキスト要約、ビデオ要約に注釈付けされ、簡潔で実行可能なビデオ要約の包括的な評価を可能にする。
収集したMS4UIデータセットに対して広範な実験を行い、最先端のマルチモーダル要約手法がUI映像要約に苦戦していることを示唆し、UI指導ビデオ要約のための新しい方法の重要性を強調した。
関連論文リスト
- SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。
我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。
我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2025-05-06T08:47:14Z) - HierSum: A Global and Local Attention Mechanism for Video Summarization [14.88934924520362]
本稿では,指導ビデオの要約に焦点をあて,映像を意味のあるセグメントに分割する方法を提案する。
HierSumは、サブタイトルからのきめ細かいローカルキューと、ビデオレベルの命令によって提供されるグローバルなコンテキスト情報を統合する。
我々は,HierSumがF1スコアやランク相関などの重要な指標において,既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-04-25T20:30:30Z) - VideoMix: Aggregating How-To Videos for Task-Oriented Learning [36.183779096566276]
VideoMixは、ユーザーがタスク上の複数のビデオから情報を集約することでハウツータスクの全体的理解を得るのを助けるシステムである。
Vision-Language Modelパイプラインによって提供されるVideoMixはこの情報を抽出し、整理し、関連するビデオクリップとともに簡潔なテキスト要約を提示する。
論文 参考訳(メタデータ) (2025-03-27T03:43:02Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。