Fugu-MT 論文翻訳(概要): Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding

論文の概要: Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding

arxiv url: http://arxiv.org/abs/2403.16276v2
Date: Wed, 21 Aug 2024 01:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:44:58.238855
Title: Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding
Title（参考訳）: Pseudo-Untrimmed Videos を用いたLLMの音声・時間的理解
Authors: Yunlong Tang, Daiki Shimada, Jing Bi, Mingqian Feng, Hang Hua, Chenliang Xu,
Abstract要約: PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。 PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。 AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
参考スコア（独自算出の注目度）: 33.85362137961572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in natural language and multimodal domains. By fine-tuning multimodal LLMs with temporal annotations from well-annotated datasets, e.g., dense video captioning datasets, their temporal understanding capacity in video-language tasks can be obtained. However, there is a notable lack of untrimmed audio-visual video datasets with precise temporal annotations for events. This deficiency hinders LLMs from learning the alignment between time, audio-visual events, and text tokens, thus impairing their ability to temporally localize audio-visual events in videos. To address this gap, we introduce PU-VALOR, a comprehensive audio-visual dataset comprising over 114,000 pseudo-untrimmed videos with detailed temporal annotations. PU-VALOR is derived from the large-scale but coarse-annotated audio-visual dataset VALOR, through a subtle method involving event-based video clustering, random temporal scaling, and permutation. By fine-tuning a multimodal LLM on PU-VALOR, we developed AVicuna, a model capable of aligning audio-visual events with temporal intervals and corresponding text tokens. AVicuna excels in temporal localization and time-aware dialogue capabilities. Our experiments demonstrate that AVicuna effectively handles temporal understanding in audio-visual videos and achieves state-of-the-art performance on open-ended video QA, audio-visual QA, and audio-visual event dense localization tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語とマルチモーダルドメインにおいて顕著な機能を示した。十分に注釈付けされたデータセット,例えば高密度なビデオキャプションデータセットからテンポラリアノテーションを付加したマルチモーダルLLMを微調整することにより,ビデオ言語タスクにおける時間的理解能力を得ることができる。しかし、イベントの正確な時間的アノテーションを備えた未トリミングな音声視覚ビデオデータセットが欠如している。この欠陥は、LDMが時間、音声視覚イベント、テキストトークンの整合性を学ぶのを妨げるため、ビデオ内の音声視覚イベントを時間的にローカライズすることができない。このギャップに対処するため, PU-VALORは, 114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。 PU-VALORは、イベントベースのビデオクラスタリング、ランダム時間スケール、置換を含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生している。 PU-VALOR 上でマルチモーダル LLM を微調整することにより,音声・視覚イベントを時間間隔および対応するテキストトークンと整列可能なモデル AVicuna を開発した。 AVicunaは時間的ローカライゼーションとタイムアウェアな対話機能に優れています。実験により,AVicunaは音声・視覚映像の時間的理解を効果的に処理し,音声・視覚映像QA,音声・視覚映像QA,音声・視覚イベント密集化タスクにおける最先端のパフォーマンスを実現することができた。

関連論文リスト

TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors [40.48528326378281]
デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。本稿では,TA-Promptingを提案する。TA-Promptingはテンポラルアンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間対応のビデオイベント理解を促す。
論文参考訳（メタデータ） (2026-01-06T10:45:53Z)
Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models [10.585096070697348]
本稿では,ビデオキャプションを高密度に生成する新しいトレーニングフリーパイプラインであるVideoNarratorを紹介する。 VideoNarratorは、既製のMLLMとビジュアル言語モデルがキャプションジェネレータとして機能する柔軟なパイプラインを活用することで、課題に対処する。実験の結果,これらの成分の相乗的相互作用はビデオナレーションの品質と精度を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-07-22T22:16:37Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 GPT-4から派生した高品質のビデオ命令データセットを提案する。実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文参考訳（メタデータ） (2023-12-11T02:50:46Z)
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。 FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文参考訳（メタデータ） (2023-10-09T17:00:20Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。 VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2023-04-17T15:08:15Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文参考訳（メタデータ） (2020-03-17T15:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。