論文の概要: A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews
- arxiv url: http://arxiv.org/abs/2604.13057v1
- Date: Tue, 17 Mar 2026 21:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.644643
- Title: A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews
- Title(参考訳): 政府モバイルバンキングアプリレビューの英語・バングラセンティメント分類への多モデルアプローチ
- Authors: Md. Naim Molla, Md Muhtasim Munif Fahim, Md. Binyamin, Md Jahid Hasan Imran, Tonmoy Shil, Nura Rayhan, Md Rezaul Karim,
- Abstract要約: この調査は、バングラデシュの4つの銀行アプリについて、英語とバングラ語で5,652件のGoogle Playレビューを分析した。
従来のモデルは最高精度(0.815)、リニアSVMは最高重み付きF1スコア(0.804)を作成した。
DeBERTa-v3は、4つのアプリのレビューのアスペクトレベルでの感情分析に使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For millions of users in developing economies who depend on mobile banking as their primary gateway to financial services, app quality directly shapes financial access. The study analyzed 5,652 Google Play reviews in English and Bangla (filtered from 11,414 raw reviews) for four Bangladeshi government banking apps. The authors used a hybrid labeling approach that combined use of the reviewer's star rating for each review along with a separate independent XLM-RoBERTa classifier to produce moderate inter-method agreement (kappa = 0.459). Traditional models outperformed transformer-based ones: Random Forest produced the highest accuracy (0.815), while Linear SVM produced the highest weighted F1 score (0.804); both were higher than the performance of fine-tuned XLM-RoBERTa (0.793). McNemar's test confirmed that all classical models were significantly superior to the off-the-shelf XLM-RoBERTa (p < 0.05), while differences with the fine-tuned variant were not statistically significant. DeBERTa-v3 was applied to analyze the sentiment at the aspect level across the reviews for the four apps; the reviewers expressed their dissatisfaction primarily with the speed of transactions and with the poor design of interfaces; eJanata app received the worst ratings from the reviewers across all apps. Three policy recommendations are made based on these findings - remediation of app quality, trust-centred release management, and Bangla-first NLP adoption - to assist state-owned banks in moving towards improving their digital services through data-driven methods. Notably, a 16.1-percentage-point accuracy gap between Bangla and English text highlights the need for low-resource language model development.
- Abstract(参考訳): 金融サービスへの主要なゲートウェイとしてモバイルバンキングに依存している発展途上国の数百万のユーザーにとって、アプリの品質は直接金融アクセスを形成する。
この調査は、バングラデシュの4つの銀行アプリについて、英語とバングラ語で5,652件のGoogle Playレビューを分析した。
著者らは、レビューごとにレビュアーの星格と独立したXLM-RoBERTa分類器を組み合わせて、中程度の金属間合意(kappa = 0.459)を生成するハイブリッドラベリング手法を使用した。
従来のモデルでは、Random Forestが最高の精度(0.815)、Linear SVMが最高の重み付きF1スコア(0.804)、微調整されたXLM-RoBERTa(0.793)よりも高いパフォーマンスであった。
マクネマールの試験では、全ての古典モデルは市販のXLM-RoBERTa (p < 0.05) よりもかなり優れているが、微調整された派生型との差は統計的に有意ではない。
DeBERTa-v3は、4つのアプリのレビューのアスペクトレベルでの感情分析に応用された。レビュー担当者は、主にトランザクションのスピードとインターフェースの貧弱さに不満を表明し、eJanataアプリは、すべてのアプリでレビュー担当者から最悪の評価を受けた。
これらの結果に基づいて,3つのポリシレコメンデーション – アプリ品質の修復,信頼性の高いリリース管理,BanglaファーストのNLP採用 – が実施されている。
特に、Banglaと英語のテキスト間の16.1ポイントの精度差は、低リソース言語モデル開発の必要性を強調している。
関連論文リスト
- Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文 参考訳(メタデータ) (2025-12-03T21:02:54Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - LLM Based Sentiment Classification From Bangladesh E-Commerce Reviews [0.0]
本稿では,バングラデシュのeコマースレビューの感情分析にトランスフォーマーを用いたBERTモデルの有効性について検討する。
バングラのオリジナルデータセットから4000サンプルのサブセットと、イングランドの顧客レビューを使用してモデルを微調整した。
微調整のLlama-3.1-8Bモデルは、全体的な精度、精度、リコール、F1スコア95.5%、93%、88%、90%で他の微調整モデルより優れていた。
論文 参考訳(メタデータ) (2025-09-30T16:46:09Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models [12.035509884945789]
テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。
フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。
4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
論文 参考訳(メタデータ) (2024-07-16T08:25:26Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。