論文の概要: LLM-AD: Large Language Model based Audio Description System
- arxiv url: http://arxiv.org/abs/2405.00983v1
- Date: Thu, 2 May 2024 03:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:54:29.182973
- Title: LLM-AD: Large Language Model based Audio Description System
- Title(参考訳): LLM-AD:大規模言語モデルに基づく音声記述システム
- Authors: Peng Chu, Jiang Wang, Andre Abrantes,
- Abstract要約: 本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
確立された自然言語AD生産標準に準拠したADを生成し、フレーム間でコンテキスト的に一貫した文字情報を維持する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
- 参考スコア(独自算出の注目度): 5.319096768490139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Audio Description (AD) has been a pivotal step forward in making video content more accessible and inclusive. Traditionally, AD production has demanded a considerable amount of skilled labor, while existing automated approaches still necessitate extensive training to integrate multimodal inputs and tailor the output from a captioning style to an AD style. In this paper, we introduce an automated AD generation pipeline that harnesses the potent multimodal and instruction-following capacities of GPT-4V(ision). Notably, our methodology employs readily available components, eliminating the need for additional training. It produces ADs that not only comply with established natural language AD production standards but also maintain contextually consistent character information across frames, courtesy of a tracking-based character recognition module. A thorough analysis on the MAD dataset reveals that our approach achieves a performance on par with learning-based methods in automated AD production, as substantiated by a CIDEr score of 20.5.
- Abstract(参考訳): Audio Description(AD)の開発は、ビデオコンテンツをよりアクセスしやすく包括的にするための重要な一歩だ。
伝統的に、AD生産は相当量の熟練した労働力を必要としているが、既存の自動化されたアプローチでは、マルチモーダルな入力を統合し、キャプティングスタイルからADスタイルへの出力を調整するための広範囲な訓練が必要である。
本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
特に、我々の方法論は容易に利用できるコンポーネントを採用しており、追加のトレーニングの必要性を排除しています。
それは、確立された自然言語ADプロダクション標準に準拠するだけでなく、トラッキングベースの文字認識モジュールのおかげで、フレーム間でコンテキスト的に一貫した文字情報を維持できるADを生成する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies [3.6481982339272925]
オーディオ記述(AD)は、視覚障害者や視覚障害者がデジタルメディアコンテンツにアクセスするのを支援するために設計された音響注釈として機能する。
自然言語処理(NLP)とコンピュータビジョン(CV)の進歩により、自動AD生成に一歩近づいた。
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の時代におけるAD生成に関連する技術についてレビューする。
論文 参考訳(メタデータ) (2024-10-11T14:40:51Z) - Large Language Models for Human-like Autonomous Driving: A Survey [7.125039718268125]
大規模言語モデル(LLMs)は、言語理解と生成機能を備えた巨大なテキストコーパスでトレーニングされたAIモデルである。
この調査は、LLMを自律運転に活用する進捗状況についてレビューする。
モジュール型のADパイプラインとエンドツーエンドのADシステムにおける彼らのアプリケーションに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-27T15:24:11Z) - AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - Training Zero-Shot Generalizable End-to-End Task-Oriented Dialog System Without Turn-level Dialog Annotations [2.757798192967912]
この作業はマルチタスク命令の微調整を用いて、より効率的でスケーラブルなタスク指向対話システムを構築する。
提案手法は,アノテートされたデータに基づいて訓練された最先端モデルと,市販のChatGPTモデルから10億のパラメータを比較検討する。
論文 参考訳(メタデータ) (2024-07-21T04:52:38Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning [120.95150400119705]
GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:27:00Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。