Fugu-MT 論文翻訳(概要): Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method

論文の概要: Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method

arxiv url: http://arxiv.org/abs/2203.15778v1
Date: Tue, 29 Mar 2022 17:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 15:36:39.317180
Title: Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method
Title（参考訳）: テキスト駆動ビデオアクセラレーション:弱教師付き強化学習法
Authors: Washington Ramos, Michel Silva, Edson Araujo, Victor Moura, Keller Oliveira, Leandro Soriano Marcolino, Erickson R. Nascimento
Abstract要約: 本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
参考スコア（独自算出の注目度）: 6.172652648945223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growth of videos in our digital age and the users' limited time raise the demand for processing untrimmed videos to produce shorter versions conveying the same information. Despite the remarkable progress that summarization methods have made, most of them can only select a few frames or skims, creating visual gaps and breaking the video context. This paper presents a novel weakly-supervised methodology based on a reinforcement learning formulation to accelerate instructional videos using text. A novel joint reward function guides our agent to select which frames to remove and reduce the input video to a target length without creating gaps in the final video. We also propose the Extended Visually-guided Document Attention Network (VDAN+), which can generate a highly discriminative embedding space to represent both textual and visual data. Our experiments show that our method achieves the best performance in Precision, Recall, and F1 Score against the baselines while effectively controlling the video's output length. Visit https://www.verlab.dcc.ufmg.br/semantic-hyperlapse/tpami2022/ for code and extra results.
Abstract（参考訳）: デジタル時代のビデオの成長と利用者の限られた時間は、同じ情報を伝達する短いバージョンを生成するために、未編集の動画を処理する需要を増大させる。要約手法の著しい進歩にもかかわらず、ほとんどは数フレームまたはスキムのみを選択し、視覚的なギャップを生成し、ビデオコンテキストを壊すことができる。本稿では,テキストを用いた指導ビデオの高速化を目的とした強化学習の定式化に基づく,弱教師付き手法を提案する。新たな共同報酬機能により,最終映像にギャップを生じさせることなく,どのフレームを除去し,ターゲット長に縮小するかを,エージェントに選択させる。また,テキストデータと視覚データの両方を表す高度に識別可能な埋め込み空間を生成する拡張視覚誘導文書注意ネットワーク(VDAN+)を提案する。提案手法は,ビデオの出力長を効果的に制御しつつ,ベースラインに対して精度,リコール,F1スコアで最高の性能を達成することを示す。コードと追加結果についてはhttps://www.verlab.dcc.ufmg.br/semantic-hyperlapse/tpami2022/を参照。

関連論文リスト

Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.12699618126831]
本稿では,データセットをフレームレベルでアノテートする方法を提案する。この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文参考訳（メタデータ） (2025-05-27T07:39:43Z)
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文参考訳（メタデータ） (2024-11-22T02:46:44Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
Beyond the Frame: Single and mutilple video summarization method with user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文参考訳（メタデータ） (2023-12-23T04:32:07Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文参考訳（メタデータ） (2023-10-15T02:39:25Z)
Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文参考訳（メタデータ） (2023-03-22T08:13:25Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。 6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文参考訳（メタデータ） (2021-02-11T18:50:16Z)
Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文参考訳（メタデータ） (2020-03-31T14:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。