論文の概要: Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies
- arxiv url: http://arxiv.org/abs/2410.08860v1
- Date: Fri, 11 Oct 2024 14:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:35:51.507201
- Title: Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies
- Title(参考訳): LLMとVLMの時代の音声記述生成:転送可能な生成AI技術の概要
- Authors: Yingqiang Gao, Lukas Fischer, Alexa Lintner, Sarah Ebling,
- Abstract要約: オーディオ記述(AD)は、視覚障害者や視覚障害者がデジタルメディアコンテンツにアクセスするのを支援するために設計された音響注釈として機能する。
自然言語処理(NLP)とコンピュータビジョン(CV)の進歩により、自動AD生成に一歩近づいた。
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の時代におけるAD生成に関連する技術についてレビューする。
- 参考スコア(独自算出の注目度): 3.6481982339272925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio descriptions (ADs) function as acoustic commentaries designed to assist blind persons and persons with visual impairments in accessing digital media content on television and in movies, among other settings. As an accessibility service typically provided by trained AD professionals, the generation of ADs demands significant human effort, making the process both time-consuming and costly. Recent advancements in natural language processing (NLP) and computer vision (CV), particularly in large language models (LLMs) and vision-language models (VLMs), have allowed for getting a step closer to automatic AD generation. This paper reviews the technologies pertinent to AD generation in the era of LLMs and VLMs: we discuss how state-of-the-art NLP and CV technologies can be applied to generate ADs and identify essential research directions for the future.
- Abstract(参考訳): オーディオ記述(ADs)は、視覚障害者や視覚障害者がテレビや映画などでデジタルメディアコンテンツにアクセスするのを支援するための音響注釈として機能する。
訓練されたAD専門家が通常提供するアクセシビリティサービスとして、ADの生成には多大な人的努力が必要であり、プロセスに時間と費用がかかる。
自然言語処理(NLP)とコンピュータビジョン(CV)の最近の進歩、特に大規模言語モデル(LLM)と視覚言語モデル(VLM)は、自動AD生成に一歩近づいた。
本稿では, LLM と VLM の時代におけるAD 生成に関連する技術について概説し, 最先端の NLP と CV 技術が AD の生成にどのように応用され, 将来に必要な研究方向を特定できるかを論じる。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Large Language Models for Human-like Autonomous Driving: A Survey [7.125039718268125]
大規模言語モデル(LLMs)は、言語理解と生成機能を備えた巨大なテキストコーパスでトレーニングされたAIモデルである。
この調査は、LLMを自律運転に活用する進捗状況についてレビューする。
モジュール型のADパイプラインとエンドツーエンドのADシステムにおける彼らのアプリケーションに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-27T15:24:11Z) - AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - LLM-AD: Large Language Model based Audio Description System [5.319096768490139]
本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
確立された自然言語AD生産標準に準拠したADを生成し、フレーム間でコンテキスト的に一貫した文字情報を維持する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
論文 参考訳(メタデータ) (2024-05-02T03:38:58Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming [26.082980156232086]
生成人工知能(Generative AI)と大規模言語モデル(LLM)は、ビデオ技術の分野を変えつつある。
この論文は、高度にリアルなビデオ制作におけるこれらの技術の革新的利用を強調している。
ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献するかを論じる。
論文 参考訳(メタデータ) (2024-01-30T14:37:10Z) - Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Recommender Systems in the Era of Large Language Models (LLMs) [62.0129013439038]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-07-05T06:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。