Fugu-MT 論文翻訳(概要): AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue

論文の概要: AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue

arxiv url: http://arxiv.org/abs/2403.16276v1
Date: Sun, 24 Mar 2024 19:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 16:36:49.075423
Title: AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue
Title（参考訳）: AVicuna: テンポラル参照対話のためのインターリーバとコンテキスト境界アライメント付きオーディオビジュアルLLM
Authors: Yunlong Tang, Daiki Shimada, Jing Bi, Chenliang Xu,
Abstract要約: PU-VALORは114,000本以上の未編集ビデオと正確な時間的区切りを含む広帯域音声・視覚データセットである。また,AVTI(Audio-Visual Tokens Interleaver)を特徴とするAVicunaについて述べる。
参考スコア（独自算出の注目度）: 35.603271710124424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In everyday communication, humans frequently use speech and gestures to refer to specific areas or objects, a process known as Referential Dialogue (RD). While prior studies have investigated RD through Large Language Models (LLMs) or Large Multimodal Models (LMMs) in static contexts, the exploration of Temporal Referential Dialogue (TRD) within audio-visual media remains limited. Two primary challenges hinder progress in this field: (1) the absence of comprehensive, untrimmed audio-visual video datasets with precise temporal annotations, and (2) the need for methods to integrate complex temporal auditory and visual cues effectively. To address these challenges, we introduce a novel framework to generate PU-VALOR, an extensive audio-visual dataset comprising over 114,000 untrimmed videos with accurate temporal demarcations. We also present AVicuna, featuring an Audio-Visual Tokens Interleaver (AVTI) that ensures the temporal alignment of audio-visual information. Additionally, we develop the A5-222K dataset, encompassing more than 200,000 audio-text pairings, to facilitate the audio and text alignments. Our experiments demonstrate that AVicuna can effectively handle TRD in audio-visual videos and achieve state-of-the-art performance on various audio-visual video understanding tasks, particularly in untrimmed videos. We further investigate the optimal audio-interleaving rate for interleaved audio-visual inputs, which maximizes performance on the Audio-Visual Event Dense Localization task.
Abstract（参考訳）: 日常的なコミュニケーションでは、人間は言葉やジェスチャーを使って特定の領域や物体、すなわちReferential Dialogue(RD)と呼ばれるプロセスを指すことが多い。 LLM(Large Language Models)やLMM(Large Multimodal Models)によるRDを静的な文脈で研究する以前の研究はあったが、音声・視覚メディアにおけるTRD(Temporal Referential Dialogue)の探索は依然として限られている。 2) 複雑な時間的聴覚と視覚的手がかりを効果的に統合する手法の必要性。これらの課題に対処するため, PU-VALORを生成するための新しいフレームワークを導入する。また,AVTI(Audio-Visual Tokens Interleaver)を特徴とするAVicunaについて述べる。さらに,音声とテキストのアライメントを容易にするために,20万以上の音声テキストペアリングを含むA5-222Kデータセットを開発した。実験により、AVicunaは、音声映像におけるTRDを効果的に処理し、特にトリミングビデオにおいて、様々な音声映像理解タスクにおける最先端のパフォーマンスを実現することができることを示した。さらに,オーディオ・ビジュアル・イベント・ディエンス・ローカライゼーション・タスクの性能を最大化するインターリーブ・オーディオ・ビジュアル・インプットの最適オーディオ・インターリーブ率について検討する。

関連論文リスト

TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors [40.48528326378281]
デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。本稿では,TA-Promptingを提案する。TA-Promptingはテンポラルアンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間対応のビデオイベント理解を促す。
論文参考訳（メタデータ） (2026-01-06T10:45:53Z)
Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models [10.585096070697348]
本稿では,ビデオキャプションを高密度に生成する新しいトレーニングフリーパイプラインであるVideoNarratorを紹介する。 VideoNarratorは、既製のMLLMとビジュアル言語モデルがキャプションジェネレータとして機能する柔軟なパイプラインを活用することで、課題に対処する。実験の結果,これらの成分の相乗的相互作用はビデオナレーションの品質と精度を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-07-22T22:16:37Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。 GPT-4から派生した高品質のビデオ命令データセットを提案する。実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文参考訳（メタデータ） (2023-12-11T02:50:46Z)
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。 FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文参考訳（メタデータ） (2023-10-09T17:00:20Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。 VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2023-04-17T15:08:15Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文参考訳（メタデータ） (2020-03-17T15:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。