Fugu-MT 論文翻訳(概要): Semi-Parametric Video-Grounded Text Generation

論文の概要: Semi-Parametric Video-Grounded Text Generation

arxiv url: http://arxiv.org/abs/2301.11507v1
Date: Fri, 27 Jan 2023 03:00:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 16:41:50.088979
Title: Semi-Parametric Video-Grounded Text Generation
Title（参考訳）: 半パラメトリックビデオグラウンドテキスト生成
Authors: Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
Abstract要約: 本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
参考スコア（独自算出の注目度）: 21.506377836451577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient video-language modeling should consider the computational cost because of a large, sometimes intractable, number of video frames. Parametric approaches such as the attention mechanism may not be ideal since its computational cost quadratically increases as the video length increases. Rather, previous studies have relied on offline feature extraction or frame sampling to represent the video efficiently, focusing on cross-modal modeling in short video clips. In this paper, we propose a semi-parametric video-grounded text generation model, SeViT, a novel perspective on scalable video-language modeling toward long untrimmed videos. Treating a video as an external data store, SeViT includes a non-parametric frame retriever to select a few query-relevant frames from the data store for a given query and a parametric generator to effectively aggregate the frames with the query via late fusion methods. Experimental results demonstrate our method has a significant advantage in longer videos and causal video understanding. Moreover, our model achieves the new state of the art on four video-language datasets, iVQA (+4.8), Next-QA (+6.9), and Activitynet-QA (+4.8) in accuracy, and MSRVTT-Caption (+3.6) in CIDEr.
Abstract（参考訳）: 効率的なビデオ言語モデリングは、大きな、時には難解なビデオフレーム数のために計算コストを考慮すべきである。注意機構のようなパラメトリックアプローチは、ビデオの長さが増加するにつれて計算コストが2次的に増加するので理想的ではないかもしれない。むしろ、従来の研究はオフラインの機能抽出やフレームサンプリングに依存しており、短いビデオクリップのクロスモーダルモデリングに焦点を当てている。本稿では,長大なビデオに対するスケーラブルなビデオ言語モデリングの新たな視点として,半パラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。映像を外部データストアとして扱うsevitは、所定のクエリのためにデータストアからいくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーと、遅延フュージョンメソッドを介してクエリで効率的にフレームを集約するパラメトリックジェネレータを含む。実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。さらに,本モデルでは,4つのビデオ言語データセット,iVQA(+4.8),Next-QA(+6.9),Activitynet-QA(+4.8),MSRVTT-Caption(+3.6)を精度良く実現している。

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文参考訳（メタデータ） (2025-06-18T03:23:56Z)
AdaVid: Adaptive Video-Language Pretraining [25.893795920759572]
計算制約のあるエッジデバイス上で,効率的なビデオエンコーダを学習するためのフレームワークであるAdaVidを紹介する。 AdaVidは、利用可能なリソースに基づいて計算フットプリントを動的に適応できる効率的なビデオエンコーダを学習する。
論文参考訳（メタデータ） (2025-04-16T22:19:50Z)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。 VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文参考訳（メタデータ） (2024-12-01T00:33:05Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。 ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文参考訳（メタデータ） (2024-04-30T15:49:03Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文参考訳（メタデータ） (2023-07-04T22:52:16Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)
Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。 MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。 MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文参考訳（メタデータ） (2022-07-05T05:14:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。