論文の概要: Deciphering the complaint aspects: Towards an aspect-based complaint identification model with video complaint dataset in finance
- arxiv url: http://arxiv.org/abs/2503.00054v1
- Date: Wed, 26 Feb 2025 18:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:06.924274
- Title: Deciphering the complaint aspects: Towards an aspect-based complaint identification model with video complaint dataset in finance
- Title(参考訳): 苦情側面の解読:財務におけるビデオ苦情データセットを用いたアスペクトベースの苦情識別モデルを目指して
- Authors: Sarmistha Das, Basha Mujavarsheik, R E Zera Lyngkhoi, Sriparna Saha, Alka Maurya,
- Abstract要約: 我々は,433件の公開インスタンスからなる,プロプライエタリなマルチモーダルビデオ苦情データセットをキュレートした。
それぞれのインスタンスは、発話レベルに細心の注意を払ってアノテートされ、財務面の5つの異なるカテゴリと関連する苦情ラベルを含んでいる。
Solution 3.0は、マルチモーダル特徴(オーディオとビデオ)の扱い、2)マルチラベルのアスペクト分類、3)アスペクト分類と苦情識別を並行して行う3つの重要なタスクを実行するように調整されている。
- 参考スコア(独自算出の注目度): 10.999957040668354
- License:
- Abstract: In today's competitive marketing landscape, effective complaint management is crucial for customer service and business success. Video complaints, integrating text and image content, offer invaluable insights by addressing customer grievances and delineating product benefits and drawbacks. However, comprehending nuanced complaint aspects within vast daily multimodal financial data remains a formidable challenge. Addressing this gap, we have curated a proprietary multimodal video complaint dataset comprising 433 publicly accessible instances. Each instance is meticulously annotated at the utterance level, encompassing five distinct categories of financial aspects and their associated complaint labels. To support this endeavour, we introduce Solution 3.0, a model designed for multimodal aspect-based complaint identification task. Solution 3.0 is tailored to perform three key tasks: 1) handling multimodal features ( audio and video), 2) facilitating multilabel aspect classification, and 3) conducting multitasking for aspect classifications and complaint identification parallelly. Solution 3.0 utilizes a CLIP-based dual frozen encoder with an integrated image segment encoder for global feature fusion, enhanced by contextual attention (ISEC) to improve accuracy and efficiency. Our proposed framework surpasses current multimodal baselines, exhibiting superior performance across nearly all metrics by opening new ways to strengthen appropriate customer care initiatives and effectively assisting individuals in resolving their problems.
- Abstract(参考訳): 今日の競争力のあるマーケティングの世界では、顧客サービスとビジネスの成功に効果的な苦情管理が不可欠である。
ビデオの苦情、テキストと画像のコンテンツの統合は、顧客の不満に対処し、製品のメリットと欠点を明確にすることで、貴重な洞察を提供する。
しかし、膨大な日次マルチモーダル財務データにおける不平の相違は、依然として深刻な課題である。
このギャップに対処するため、我々は433の公開インスタンスからなるプロプライエタリなマルチモーダルビデオ苦情データセットをキュレートした。
それぞれのインスタンスは、発話レベルに細心の注意を払ってアノテートされ、財務面の5つの異なるカテゴリと関連する苦情ラベルを含んでいる。
この取り組みを支援するために、マルチモーダルなアスペクトベースの苦情識別タスク用に設計されたモデルであるSolution 3.0を紹介する。
Solution 3.0は3つの重要なタスクを実行するように調整されています。
1)マルチモーダルな特徴(音声・映像)を扱うこと
2)多言語的側面分類の容易化,及び
3)側面分類と苦情識別を並行して行う。
Solution 3.0では、CLIPベースのデュアルフリーズエンコーダと、グローバル機能融合のための統合イメージセグメントエンコーダを使用して、コンテキストアテンション(ISEC)によって強化され、精度と効率を向上させる。
提案手法は現在のマルチモーダルベースラインを超越し、適切なカスタマーケアの取り組みを強化し、問題の解決を効果的に支援することで、ほぼすべての指標において優れたパフォーマンスを示す。
関連論文リスト
- Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。
本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。
我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文 参考訳(メタデータ) (2025-01-11T12:19:20Z) - FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning [5.65203350495478]
MLLMの推論能力を評価するためのベンチマークであるFCMR(Financial Cross-Modal Multi-Hop Reasoning)を提案する。
FCMRは3つの難易度(易度、中度、硬度)に分類される。
この新しいベンチマークの実験では、最先端のMLLMでさえ苦戦しており、最高の性能のモデルは最も難しいレベルでは30.4%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-12-17T05:50:55Z) - PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension [69.73137587705646]
マルチモーダルなtextbfPunchline comprehension textbfPunchBenchmark を導入する。
評価精度を高めるために、原文のキャプションを変更して、同義語と無称のキャプションを生成する。
そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
論文 参考訳(メタデータ) (2024-12-16T15:52:59Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Enhancing Multi-field B2B Cloud Solution Matching via Contrastive Pre-training [18.933065707837986]
我々は,B2Bソリューションマッチング問題について検討し,(1)複雑な多分野特徴のモデリング,(2)限定的,不完全かつスパースなトランザクションデータについて,このシナリオの2つの主要な課題を特定する。
これらの課題に対処するために,階層型マルチフィールドマッチング構造をバックボーンとして構築し,3つのデータ拡張戦略と対照的な事前学習目標を補完するフレームワークCAMAを提案する。
分析の結果,CVR(Conversion Rate)では,従来のオンラインモデルと比較して約30%の改善が見られた。
論文 参考訳(メタデータ) (2024-02-11T01:03:41Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Multi-Resolution Fusion and Multi-scale Input Priors Based Crowd
Counting [20.467558675556173]
本稿では,マルチレゾリューション・フュージョンに基づくエンドツーエンドのクラウドカウントネットワークを提案する。
PRMモジュールの効率的な代替として、3つの入力先が導入された。
提案手法は, クロスデータセット実験において, 最適な結果を得るために, より優れた一般化能力を有する。
論文 参考訳(メタデータ) (2020-10-04T19:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。