論文の概要: FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
- arxiv url: http://arxiv.org/abs/2503.20990v1
- Date: Wed, 26 Mar 2025 21:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.313713
- Title: FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
- Title(参考訳): FinAudio:金融アプリケーションにおけるオーディオ大言語モデルのベンチマーク
- Authors: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie,
- Abstract要約: 金融分野におけるAudioLLMの容量を評価するために設計された最初のベンチマークであるtextscFinAudioを紹介する。
まず,金融分野の特徴に基づく3つのタスクを定義した。1) 短期金融オーディオのためのASR,2) 長期金融オーディオのためのASR,3) 長期金融オーディオの要約である。
本評価では、金融分野における既存のAudioLLMの限界を明らかにし、AudioLLMを改善するための洞察を提供する。
- 参考スコア(独自算出の注目度): 44.700672394259676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Large Language Models (AudioLLMs) have received widespread attention and have significantly improved performance on audio tasks such as conversation, audio understanding, and automatic speech recognition (ASR). Despite these advancements, there is an absence of a benchmark for assessing AudioLLMs in financial scenarios, where audio data, such as earnings conference calls and CEO speeches, are crucial resources for financial analysis and investment decisions. In this paper, we introduce \textsc{FinAudio}, the first benchmark designed to evaluate the capacity of AudioLLMs in the financial domain. We first define three tasks based on the unique characteristics of the financial domain: 1) ASR for short financial audio, 2) ASR for long financial audio, and 3) summarization of long financial audio. Then, we curate two short and two long audio datasets, respectively, and develop a novel dataset for financial audio summarization, comprising the \textsc{FinAudio} benchmark. Then, we evaluate seven prevalent AudioLLMs on \textsc{FinAudio}. Our evaluation reveals the limitations of existing AudioLLMs in the financial domain and offers insights for improving AudioLLMs. All datasets and codes will be released.
- Abstract(参考訳): 音声大言語モデル(AudioLLM)は広く注目を集めており、会話、音声理解、自動音声認識(ASR)などの音声タスクのパフォーマンスを大幅に改善している。
こうした進歩にもかかわらず、財務シナリオにおいてAudioLLMを評価するためのベンチマークが欠落している。
本稿では、金融分野におけるAudioLLMの容量を評価するために設計された最初のベンチマークである「textsc{FinAudio}」を紹介する。
まず、金融分野の特徴に基づく3つのタスクを定義します。
1)短い財務音声のためのASR
2【長期金融音声のためのASR】
3)ロングファイナンシャルオーディオの要約。
そこで我々は,それぞれ2つの短い音声データセットと2つの長い音声データセットをキュレートし,<textsc{FinAudio}ベンチマークを含む財務音声要約のための新しいデータセットを開発した。
次に, <textsc{FinAudio} 上で 7 つのAudioLLM の評価を行った。
本評価では、金融分野における既存のAudioLLMの限界を明らかにし、AudioLLMを改善するための洞察を提供する。
すべてのデータセットとコードがリリースされる。
関連論文リスト
- Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。