Fugu-MT 論文翻訳(概要): Agent-based Video Trimming

論文の概要: Agent-based Video Trimming

arxiv url: http://arxiv.org/abs/2412.09513v1
Date: Thu, 12 Dec 2024 17:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.201714
Title: Agent-based Video Trimming
Title（参考訳）: エージェントによるビデオトリミング
Authors: Lingfeng Yang, Zhenyuan Chen, Xiang Li, Peiyang Jia, Liangqu Long, Jian Yang,
Abstract要約: ビデオトリミング(VT)という新しいタスクを導入する。 VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。 AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
参考スコア（独自算出の注目度）: 17.519404251018308
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As information becomes more accessible, user-generated videos are increasing in length, placing a burden on viewers to sift through vast content for valuable insights. This trend underscores the need for an algorithm to extract key video information efficiently. Despite significant advancements in highlight detection, moment retrieval, and video summarization, current approaches primarily focus on selecting specific time intervals, often overlooking the relevance between segments and the potential for segment arranging. In this paper, we introduce a novel task called Video Trimming (VT), which focuses on detecting wasted footage, selecting valuable segments, and composing them into a final video with a coherent story. To address this task, we propose Agent-based Video Trimming (AVT), structured into three phases: Video Structuring, Clip Filtering, and Story Composition. Specifically, we employ a Video Captioning Agent to convert video slices into structured textual descriptions, a Filtering Module to dynamically discard low-quality footage based on the structured information of each clip, and a Video Arrangement Agent to select and compile valid clips into a coherent final narrative. For evaluation, we develop a Video Evaluation Agent to assess trimmed videos, conducting assessments in parallel with human evaluations. Additionally, we curate a new benchmark dataset for video trimming using raw user videos from the internet. As a result, AVT received more favorable evaluations in user studies and demonstrated superior mAP and precision on the YouTube Highlights, TVSum, and our own dataset for the highlight detection task. The code and models are available at https://ylingfeng.github.io/AVT.
Abstract（参考訳）: 情報がよりアクセスしやすくなるにつれ、ユーザー生成ビデオは長くなり、視聴者は膨大なコンテンツを閲覧して貴重な洞察を得ることになる。この傾向は、キー映像情報を効率的に抽出するアルゴリズムの必要性を浮き彫りにする。ハイライト検出、モーメント検索、ビデオ要約の大幅な進歩にもかかわらず、現在のアプローチは主に特定の時間間隔の選択に焦点を合わせており、セグメントとセグメント配置の可能性の関連性を見落としていることが多い。本稿では,ビデオトリミング(VT)と呼ばれる新しいタスクを紹介し,無駄な映像を検出し,貴重なセグメントを選択し,それらをコヒーレントなストーリーで最終ビデオに構成する。この課題に対処するために,ビデオ構造化,クリップフィルタリング,ストーリー構成という3つのフェーズで構成された,エージェントベースのビデオトリミング(AVT)を提案する。具体的には、ビデオスライスを構造化テキスト記述に変換するためにビデオキャプションエージェント、各クリップの構造化情報に基づいて低品質映像を動的に破棄するフィルタリングモジュール、有効クリップをコヒーレントな最終物語に選択・コンパイルするビデオアレンジメントエージェントを用いる。評価のために,ビデオ評価エージェントを開発し,人間の評価と並行して評価を行う。さらに、インターネットから生のユーザービデオを用いて、ビデオトリミングのための新しいベンチマークデータセットをキュレートする。その結果、AVTはユーザ研究においてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。コードとモデルはhttps://ylingfeng.github.io/AVT.comで公開されている。

関連論文リスト

Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。 VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文参考訳（メタデータ） (2024-11-05T22:14:35Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-01-07T15:21:46Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)
Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文参考訳（メタデータ） (2020-03-31T14:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。