論文の概要: FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
- arxiv url: http://arxiv.org/abs/2503.20990v1
- Date: Wed, 26 Mar 2025 21:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:12.450713
- Title: FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
- Title(参考訳): FinAudio:金融アプリケーションにおけるオーディオ大言語モデルのベンチマーク
- Authors: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie,
- Abstract要約: 金融分野におけるAudioLLMの容量を評価するために設計された最初のベンチマークであるtextscFinAudioを紹介する。
まず,金融分野の特徴に基づく3つのタスクを定義した。1) 短期金融オーディオのためのASR,2) 長期金融オーディオのためのASR,3) 長期金融オーディオの要約である。
本評価では、金融分野における既存のAudioLLMの限界を明らかにし、AudioLLMを改善するための洞察を提供する。
- 参考スコア(独自算出の注目度): 44.700672394259676
- License:
- Abstract: Audio Large Language Models (AudioLLMs) have received widespread attention and have significantly improved performance on audio tasks such as conversation, audio understanding, and automatic speech recognition (ASR). Despite these advancements, there is an absence of a benchmark for assessing AudioLLMs in financial scenarios, where audio data, such as earnings conference calls and CEO speeches, are crucial resources for financial analysis and investment decisions. In this paper, we introduce \textsc{FinAudio}, the first benchmark designed to evaluate the capacity of AudioLLMs in the financial domain. We first define three tasks based on the unique characteristics of the financial domain: 1) ASR for short financial audio, 2) ASR for long financial audio, and 3) summarization of long financial audio. Then, we curate two short and two long audio datasets, respectively, and develop a novel dataset for financial audio summarization, comprising the \textsc{FinAudio} benchmark. Then, we evaluate seven prevalent AudioLLMs on \textsc{FinAudio}. Our evaluation reveals the limitations of existing AudioLLMs in the financial domain and offers insights for improving AudioLLMs. All datasets and codes will be released.
- Abstract(参考訳): 音声大言語モデル(AudioLLM)は広く注目を集めており、会話、音声理解、自動音声認識(ASR)などの音声タスクのパフォーマンスを大幅に改善している。
こうした進歩にもかかわらず、財務シナリオにおいてAudioLLMを評価するためのベンチマークが欠落している。
本稿では、金融分野におけるAudioLLMの容量を評価するために設計された最初のベンチマークである「textsc{FinAudio}」を紹介する。
まず、金融分野の特徴に基づく3つのタスクを定義します。
1)短い財務音声のためのASR
2【長期金融音声のためのASR】
3)ロングファイナンシャルオーディオの要約。
そこで我々は,それぞれ2つの短い音声データセットと2つの長い音声データセットをキュレートし,<textsc{FinAudio}ベンチマークを含む財務音声要約のための新しいデータセットを開発した。
次に, <textsc{FinAudio} 上で 7 つのAudioLLM の評価を行った。
本評価では、金融分野における既存のAudioLLMの限界を明らかにし、AudioLLMを改善するための洞察を提供する。
すべてのデータセットとコードがリリースされる。
関連論文リスト
- Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文 参考訳(メタデータ) (2025-02-10T16:51:11Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。