論文の概要: ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
- arxiv url: http://arxiv.org/abs/2511.14349v1
- Date: Tue, 18 Nov 2025 10:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.063993
- Title: ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
- Title(参考訳): ARC-Chapter:数時間の動画をナビゲート可能な章や階層的な要約に構造化する
- Authors: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan,
- Abstract要約: ARC-Chapterは100万以上のビデオチャプターで訓練された最初の大規模ビデオチャプターモデルである。
ASRの書き起こし、シーンテキスト、ビジュアルキャプションを、短いタイトルから長い要約まで、複数レベルのアノテーションに統一する。
F1得点は14.0%、SODA得点は11.3%で前年最多となった。
- 参考スコア(独自算出の注目度): 77.41072125938636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
- Abstract(参考訳): 1時間のビデオ(講義、ポッドキャスト、ドキュメンタリーなど)の急増により、効率的なコンテンツ構造化への需要が高まっている。
しかし、既存のアプローチは、典型的な短く粗いアノテーションによる小規模の訓練によって制約され、長いビデオのニュアンス遷移への一般化が制限される。
ARC-Chapterは100万以上のビデオチャプタでトレーニングされた最初の大規模ビデオチャプタモデルであり、バイリンガル、時間的基盤、階層的なチャプタアノテーションを備えている。
この目的を達成するため、ASRのテキスト、シーンテキスト、ビジュアルキャプションをショートタイトルからロングサマリーまで多レベルアノテーションに統一する構造化パイプラインを用いて、バイリンガル英語と中国語の章のデータセットをキュレートした。
データボリュームとラベル強度の両方において、データスケーリングによる明らかなパフォーマンス改善を示す。
さらに,複数対1セグメントの重なり合いと意味的類似性を取り入れたGRACEと呼ばれる新しい評価尺度を設計し,実世界のチャプティングの柔軟性を反映した。
実験の結果、ARC-Chapterは新たな最先端技術を確立し、F1の14.0%、SODAの11.3%を上回った。
さらに、ARC-Chapterは優れた転送性を示し、YouCook2の高密度ビデオキャプションのような下流タスクにおける最先端のタスクを改善している。
関連論文リスト
- Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。
本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-25T16:23:43Z) - Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs [59.854331104466254]
ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。
本稿では,音声書き起こし内容に基づく軽量な音声誘導フレーム選択手法を提案し,その利点を実験的に示す。
以上の結果から,最新のVidChapters-7Mベンチマークでは,技術の現状よりも大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-03-31T17:41:29Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。