Fugu-MT 論文翻訳(概要): Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data

論文の概要: Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data

arxiv url: http://arxiv.org/abs/2003.14229v1
Date: Tue, 31 Mar 2020 14:07:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 01:35:12.609437
Title: Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data
Title（参考訳）: 視点へ:テキストデータを用いた強化学習による高速転送ビデオ
Authors: Washington Ramos, Michel Silva, Edson Araujo, Leandro Soriano Marcolino, Erickson Nascimento
Abstract要約: 本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
参考スコア（独自算出の注目度）: 1.004766879203303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid increase in the amount of published visual data and the limited time of users bring the demand for processing untrimmed videos to produce shorter versions that convey the same information. Despite the remarkable progress that has been made by summarization methods, most of them can only select a few frames or skims, which creates visual gaps and breaks the video context. In this paper, we present a novel methodology based on a reinforcement learning formulation to accelerate instructional videos. Our approach can adaptively select frames that are not relevant to convey the information without creating gaps in the final video. Our agent is textually and visually oriented to select which frames to remove to shrink the input video. Additionally, we propose a novel network, called Visually-guided Document Attention Network (VDAN), able to generate a highly discriminative embedding space to represent both textual and visual data. Our experiments show that our method achieves the best performance in terms of F1 Score and coverage at the video segment level.
Abstract（参考訳）: 公開されるビジュアルデータの量の増加とユーザの制限時間の増加により、同じ情報を伝達するより短いバージョンを生成するために、未編集の動画の処理が要求されるようになる。要約法によって著しく進歩したにもかかわらず、ほとんどは数フレームまたはスキムしか選択できず、視覚的なギャップを生成し、ビデオのコンテキストを壊す。本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。我々のエージェントはテキスト的かつ視覚的に、どのフレームを削除して入力ビデオを縮小するかを選択する。さらに,視覚誘導型文書注意ネットワーク (vdan) と呼ばれる新しいネットワークを提案する。本手法は,ビデオセグメントレベルでのf1スコアとカバレッジにおいて,最高の性能が得られることを示す。

関連論文リスト

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。 SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文参考訳（メタデータ） (2025-06-12T15:23:11Z)
Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文参考訳（メタデータ） (2024-11-22T02:46:44Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文参考訳（メタデータ） (2022-03-29T17:43:01Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-01-07T15:21:46Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文参考訳（メタデータ） (2021-07-25T17:24:50Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。