論文の概要: Less is More: Label-Guided Summarization of Procedural and Instructional Videos
- arxiv url: http://arxiv.org/abs/2601.12243v1
- Date: Sun, 18 Jan 2026 03:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.521917
- Title: Less is More: Label-Guided Summarization of Procedural and Instructional Videos
- Title(参考訳): プロシージャとインストラクショナルビデオのラベルガイドによる要約
- Authors: Shreya Rajpal, Michal Golovanesky, Carsten Eickhoff,
- Abstract要約: 本稿では,3段階のフレームワークであるPRISMを提案する。
大規模言語モデル(LLM)を用いた適応型ビジュアルサンプリング、ラベル駆動アンカー、文脈検証について分析する。
提案手法はプロシージャとドメイン固有のビデオタスクにまたがって一般化し,セマンティックアライメントと精度の両面で高い性能を実現する。
- 参考スコア(独自算出の注目度): 21.13311741987469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization helps turn long videos into clear, concise representations that are easier to review, document, and analyze, especially in high-stakes domains like surgical training. Prior work has progressed from using basic visual features like color, motion, and structural changes to using pre-trained vision-language models that can better understand what's happening in the video (semantics) and capture temporal flow, resulting in more context-aware video summarization. We propose a three-stage framework, PRISM: Procedural Representation via Integrated Semantic and Multimodal analysis, that produces semantically grounded video summaries. PRISM combines adaptive visual sampling, label-driven keyframe anchoring, and contextual validation using a large language model (LLM). Our method ensures that selected frames reflect meaningful and procedural transitions while filtering out generic or hallucinated content, resulting in contextually coherent summaries across both domain-specific and instructional videos. We evaluate our method on instructional and activity datasets, using reference summaries for instructional videos. Despite sampling fewer than 5% of the original frames, our summaries retain 84% semantic content while improving over baselines by as much as 33%. Our approach generalizes across procedural and domain-specific video tasks, achieving strong performance with both semantic alignment and precision.
- Abstract(参考訳): ビデオの要約は、特に外科訓練のような高度な領域において、長いビデオをレビュー、文書化、分析し易く、明確で簡潔な表現に変換するのに役立つ。
以前の作業は、色、動き、構造的変化といった基本的な視覚的特徴を使用してから、トレーニング済みの視覚言語モデルを使用して、ビデオ(セマンティック)で何が起きているのかをよりよく理解し、時間の流れを捉えることで、よりコンテキスト対応のビデオ要約を実現しました。
セマンティック・マルチモーダル解析による3段階のプロシージャ表現(PRISM: Procedural Representation)を提案する。
PRISMは適応的なビジュアルサンプリング、ラベル駆動のキーフレームアンカー、および大きな言語モデル(LLM)を用いたコンテキスト検証を組み合わせたものである。
提案手法は,選択したフレームが意味的・手続き的遷移を反映し,汎用的・幻覚的コンテンツをフィルタリングし,コンテキスト的に一貫した要約をドメイン固有・命令的ビデオの両方に反映することを保証する。
我々は,指導ビデオの参照要約を用いて,指導的・活動的データセットについて評価する。
元のフレームの5%未満のサンプリングにもかかわらず、私たちの要約は84%のセマンティックコンテンツを保持し、ベースラインを最大33%改善しています。
提案手法はプロシージャとドメイン固有のビデオタスクにまたがって一般化し,セマンティックアライメントと精度の両面で高い性能を実現する。
関連論文リスト
- HierSum: A Global and Local Attention Mechanism for Video Summarization [14.88934924520362]
本稿では,指導ビデオの要約に焦点をあて,映像を意味のあるセグメントに分割する方法を提案する。
HierSumは、サブタイトルからのきめ細かいローカルキューと、ビデオレベルの命令によって提供されるグローバルなコンテキスト情報を統合する。
我々は,HierSumがF1スコアやランク相関などの重要な指標において,既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-04-25T20:30:30Z) - Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。