論文の概要: Exploring the Potential of Multimodal LLM with Knowledge-Intensive Multimodal ASR
- arxiv url: http://arxiv.org/abs/2406.10880v2
- Date: Thu, 14 Nov 2024 07:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:33.940127
- Title: Exploring the Potential of Multimodal LLM with Knowledge-Intensive Multimodal ASR
- Title(参考訳): 知識集約型マルチモーダルASRを用いたマルチモーダルLLMの可能性を探る
- Authors: Minghan Wang, Yuxia Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 本稿では,スライドからの視覚情報を活用し,技術用語の精度を高めることによる科学会議映像の翻訳に焦点を当てたマルチモーダル科学ASR(Multimodal Scientific ASR)タスクを紹介する。
本稿では,SciVASR(SciVASR)フレームワークをベースラインとして提案する。
- 参考スコア(独自算出の注目度): 40.5451418216014
- License:
- Abstract: Recent advancements in multimodal large language models (MLLMs) have made significant progress in integrating information across various modalities, yet real-world applications in educational and scientific domains remain challenging. This paper introduces the Multimodal Scientific ASR (MS-ASR) task, which focuses on transcribing scientific conference videos by leveraging visual information from slides to enhance the accuracy of technical terminologies. Realized that traditional metrics like WER fall short in assessing performance accurately, prompting the proposal of severity-aware WER (SWER) that considers the content type and severity of ASR errors. We propose the Scientific Vision Augmented ASR (SciVASR) framework as a baseline method, enabling MLLMs to improve transcript quality through post-editing. Evaluations of state-of-the-art MLLMs, including GPT-4o, show a 45% improvement over speech-only baselines, highlighting the importance of multimodal information integration.
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の進歩は、様々なモダリティにまたがる情報の統合において大きな進歩を遂げている。
本稿では,スライドからの視覚情報を活用し,技術用語の精度を高めることによる科学会議映像の翻訳に焦点を当てたマルチモーダル科学ASR(Multimodal Scientific ASR)タスクを紹介する。
WERのような従来のメトリクスは、パフォーマンスを正確に評価するに足りず、ASRエラーのコンテンツタイプと重大さを考慮に入れたSWER(Severity-aware WER)を提案する。
本稿では,SciVASR(SciVASR)フレームワークをベースラインとして提案する。
GPT-4oを含む最先端MLLMの評価は、音声のみのベースラインよりも45%改善し、マルチモーダル情報統合の重要性を強調している。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。
本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文 参考訳(メタデータ) (2024-09-17T14:35:38Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education [13.87944568193996]
MLLM(Multimodal Large Language Models)は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できる。
本稿では,科学教育の中心的な側面におけるMLLMの変革的役割について,模範的な革新的な学習シナリオを提示することによって考察する。
論文 参考訳(メタデータ) (2024-01-01T18:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。