Fugu-MT 論文翻訳(概要): A Strong Baseline for Temporal Video-Text Alignment

論文の概要: A Strong Baseline for Temporal Video-Text Alignment

arxiv url: http://arxiv.org/abs/2312.14055v1
Date: Thu, 21 Dec 2023 17:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 13:53:54.390680
Title: A Strong Baseline for Temporal Video-Text Alignment
Title（参考訳）: 時間的ビデオテキストアライメントのための強力なベースライン
Authors: Zeqian Li, Qirui Chen, Tengda Han, Ya Zhang, Yanfeng Wang, Weidi Xie
Abstract要約: 最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。 i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
参考スコア（独自算出の注目度）: 67.0514869855102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider the problem of temporally aligning the video and texts from instructional videos, specifically, given a long-term video, and associated text sentences, our goal is to determine their corresponding timestamps in the video. To this end, we establish a simple, yet strong model that adopts a Transformer-based architecture with all texts as queries, iteratively attending to the visual features, to infer the optimal timestamp. We conduct thorough experiments to investigate: (i) the effect of upgrading ASR systems to reduce errors from speech recognition, (ii) the effect of various visual-textual backbones, ranging from CLIP to S3D, to the more recent InternVideo, (iii) the effect of transforming noisy ASR transcripts into descriptive steps by prompting a large language model (LLM), to summarize the core activities within the ASR transcript as a new training dataset. As a result, our proposed simple model demonstrates superior performance on both narration alignment and procedural step grounding tasks, surpassing existing state-of-the-art methods by a significant margin on three public benchmarks, namely, 9.3% on HT-Step, 3.4% on HTM-Align and 4.7% on CrossTask. We believe the proposed model and dataset with descriptive steps can be treated as a strong baseline for future research in temporal video-text alignment. All codes, models, and the resulting dataset will be publicly released to the research community.
Abstract（参考訳）: 本稿では, 授業映像から映像とテキストを時間的に調整すること, 特に, 長期映像と関連するテキスト文を与えられた場合, 映像中の対応するタイムスタンプを決定することを目的としている。この目的のために、最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。徹底した実験を行います (i)音声認識による誤り低減のためのASRシステムのアップグレード効果 (II)CLIPからS3D、より最近のInternVideoまで様々な視覚的テクスチュアルなバックボーンの効果 3)大言語モデル(LLM)を誘導することにより,雑音の多いASR転写を記述段階に変換することにより,ASR転写のコアアクティビティを新たなトレーニングデータセットとして要約する。その結果,提案手法はナレーションアライメントと手続きステップグラウンド処理の両方において優れた性能を示し,3つのベンチマーク,すなわち,ht-stepでは9.3%,htm-alignでは3.4%,crosstaskでは4.7%を上回った。我々は,提案モデルと記述段階のデータセットを,時間的ビデオテキストアライメントにおける将来の研究の強力なベースラインとして扱うことができると考えている。すべてのコード、モデル、結果のデータセットは、研究コミュニティに公開される。

関連論文リスト

CI-VID: A Coherent Interleaved Text-Video Dataset [23.93099552431937]
CI-VIDは、孤立したテキスト・トゥ・ビデオ(T2V)生成を越えて、テキスト・アンド・ビデオ・トゥ・ビデオ(TV2V)生成に移行するデータセットである。 340,000以上のサンプルがあり、それぞれにテキストキャプション付きビデオクリップのコヒーレントなシーケンスがある。また,CI-VIDでトレーニングしたモデルでは,ビデオシーケンス生成時の精度とコンテントの整合性に大きな改善が見られた。
論文参考訳（メタデータ） (2025-07-02T17:48:01Z)
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。 UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-12T05:28:24Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文参考訳（メタデータ） (2024-11-26T18:57:29Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文参考訳（メタデータ） (2023-06-06T15:45:53Z)
Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2022-10-10T16:44:36Z)
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文参考訳（メタデータ） (2021-11-19T17:36:01Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)
Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文参考訳（メタデータ） (2020-04-29T09:32:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。