論文の概要: MSMT-FN: Multi-segment Multi-task Fusion Network for Marketing Audio Classification
- arxiv url: http://arxiv.org/abs/2511.11006v1
- Date: Fri, 14 Nov 2025 06:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.461034
- Title: MSMT-FN: Multi-segment Multi-task Fusion Network for Marketing Audio Classification
- Title(参考訳): MSMT-FN:マルチセグメントマルチタスク統合ネットワークによる音声分類のマーケティング
- Authors: HongYu Liu, Ruijie Wan, Yueju Han, Junxin Li, Liuxing Lu, Chao He, Lihua Cai,
- Abstract要約: 大量のオーディオデータから顧客購入確率を効果的に分類することは依然として困難である。
本稿では,このビジネス需要に対応するために一意に設計された新しいマルチセグメント・マルチタスク・フュージョン・ネットワーク(MSMT-FN)を提案する。
当社のプロプライエタリなMarketCallsデータセットおよび確立されたベンチマークで実施された評価は、MSMT-FNが一貫してパフォーマンスを上回り、最先端の手法と一致していることを示している。
- 参考スコア(独自算出の注目度): 3.8929318654844582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio classification plays an essential role in sentiment analysis and emotion recognition, especially for analyzing customer attitudes in marketing phone calls. Efficiently categorizing customer purchasing propensity from large volumes of audio data remains challenging. In this work, we propose a novel Multi-Segment Multi-Task Fusion Network (MSMT-FN) that is uniquely designed for addressing this business demand. Evaluations conducted on our proprietary MarketCalls dataset, as well as established benchmarks (CMU-MOSI, CMU-MOSEI, and MELD), show MSMT-FN consistently outperforms or matches state-of-the-art methods. Additionally, our newly curated MarketCalls dataset will be available upon request, and the code base is made accessible at GitHub Repository MSMT-FN, to facilitate further research and advancements in audio classification domain.
- Abstract(参考訳): 音声分類は、特にマーケティング電話における顧客の態度の分析において、感情分析と感情認識において重要な役割を担っている。
大量のオーディオデータから顧客購入確率を効果的に分類することは依然として困難である。
本研究では,このビジネス需要に対応するために一意に設計された新しいマルチセグメントマルチタスク・フュージョン・ネットワーク(MSMT-FN)を提案する。
独自のMarketCallsデータセットと、確立されたベンチマーク(CMU-MOSI、CMU-MOSEI、MELD)で実施した評価は、MSMT-FNが一貫して、最先端の手法よりも優れているか、一致していることを示している。
コードベースはGitHub Repository MSMT-FNでアクセス可能になり、オーディオ分類ドメインのさらなる研究と進歩が容易になります。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix [50.71803775663387]
MMARは、精密にキュレートされた1000個のオーディオクエスト・アンサー・トリプルから構成される。
MMARは既存のベンチマークを幅広い実世界のオーディオシナリオに拡張する。
我々は,Large Audio-Language Models (LALM)を含む,幅広いモデルの集合を用いてMMARを評価する。
論文 参考訳(メタデータ) (2025-05-19T12:18:42Z) - Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文 参考訳(メタデータ) (2025-03-03T09:18:43Z) - SEQ+MD: Learning Multi-Task as a SEQuence with Multi-Distribution Data [5.069855142454979]
マルチタスク学習(MTL)のための逐次学習と,マルチディストリビューション入力のための特徴生成領域マスクを統合したSEQ+MDフレームワークを提案する。
クリック性能を中立に保ちながら、付加品と購入を含む高価値エンゲージメントの増大を示す。
我々のマルチリージョン学習モジュールは"plug-and-play"であり、他のMTLアプリケーションに容易に適応できる。
論文 参考訳(メタデータ) (2024-08-23T20:14:27Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - Sequential Late Fusion Technique for Multi-modal Sentiment Analysis [0.0]
我々はMOSIデータセットからテキスト、オーディオ、視覚的モーダルティを利用する。
マルチヘッドアテンションLSTMネットワークを用いた新しい融合手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T01:32:41Z) - Relation-aware Meta-learning for Market Segment Demand Prediction with
Limited Records [40.33535461064516]
本稿では,メタラーニングパラダイムを備えたマルチパターン融合ネットワーク(MPFN)を組み込む新しいアルゴリズムRMLDPを提案する。
2つの大規模産業データセットについて広範な実験を行った。
その結果、我々のRMLDPは最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-08-01T06:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。