論文の概要: A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata
- arxiv url: http://arxiv.org/abs/2602.20531v1
- Date: Tue, 24 Feb 2026 04:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.59875
- Title: A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata
- Title(参考訳): ユーザインタフェースとメタデータからアプリのレーティングを予測する軽量ビジョンランゲージ統合フレームワーク
- Authors: Azrin Sultana, Firoz Ahmed,
- Abstract要約: 本研究では,モバイルUIとセマンティック情報を統合した軽量な視覚言語フレームワークを提案する。
このフレームワークはMobileNetV3を組み合わせてUIレイアウトから視覚的特徴を抽出し、DistilBERTはテキストの特徴を抽出する。
提案手法は平均絶対誤差(MAE)、平均二乗誤差(RMSE)、平均二乗誤差(MSE)、決定係数(R2)、ピアソン相関を用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: App ratings are among the most significant indicators of the quality, usability, and overall user satisfaction of mobile applications. However, existing app rating prediction models are largely limited to textual data or user interface (UI) features, overlooking the importance of jointly leveraging UI and semantic information. To address these limitations, this study proposes a lightweight vision--language framework that integrates both mobile UI and semantic information for app rating prediction. The framework combines MobileNetV3 to extract visual features from UI layouts and DistilBERT to extract textual features. These multimodal features are fused through a gated fusion module with Swish activations, followed by a multilayer perceptron (MLP) regression head. The proposed model is evaluated using mean absolute error (MAE), root mean square error (RMSE), mean squared error (MSE), coefficient of determination (R2), and Pearson correlation. After training for 20 epochs, the model achieves an MAE of 0.1060, an RMSE of 0.1433, an MSE of 0.0205, an R2 of 0.8529, and a Pearson correlation of 0.9251. Extensive ablation studies further demonstrate the effectiveness of different combinations of visual and textual encoders. Overall, the proposed lightweight framework provides valuable insights for developers and end users, supports sustainable app development, and enables efficient deployment on edge devices.
- Abstract(参考訳): アプリの評価は、モバイルアプリケーションの品質、ユーザビリティ、全体的なユーザ満足度を示す最も重要な指標のひとつです。
しかし、既存のアプリレーティング予測モデルは、UIとセマンティック情報を共同で活用することの重要性を見越して、テキストデータまたはユーザーインターフェース(UI)機能に大きく制限されている。
これらの制約に対処するために,モバイルUIとセマンティック情報を統合してアプリ評価予測を行う,軽量な視覚言語フレームワークを提案する。
このフレームワークはMobileNetV3を組み合わせてUIレイアウトから視覚的特徴を抽出し、DistilBERTはテキストの特徴を抽出する。
これらのマルチモーダル機能は、スウェーデンのアクティベーションを持つゲート融合モジュールを通じて融合され、その後に多層パーセプトロン(MLP)レグレッションヘッドが続く。
提案手法は平均絶対誤差(MAE)、平均二乗誤差(RMSE)、平均二乗誤差(MSE)、決定係数(R2)、ピアソン相関を用いて評価する。
20エポックのトレーニングの後、モデルではMAEが0.1060、RMSEが0.1433、MSEが0.0205、R2が0.8529、ピアソン相関が0.9251となる。
広範囲にわたるアブレーション研究は、視覚エンコーダとテキストエンコーダの異なる組み合わせの有効性をさらに証明している。
全体として、提案された軽量フレームワークは、開発者とエンドユーザに貴重な洞察を提供し、持続可能なアプリ開発をサポートし、エッジデバイスへの効率的なデプロイを可能にする。
関連論文リスト
- FC-MIR: A Mobile Screen Awareness Framework for Intent-Aware Recommendation based on Frame-Compressed Multimodal Trajectory Reasoning [7.78727102442322]
本稿では,サンプリングと適応結合を利用して,推論効率を高めるために視覚的冗長性を削減するFC-MIRフレームワークを提案する。
さらに,課題範囲を拡大して,予測後の操作や探索提案の生成を探求するとともに,要約,予測,提案の実用性を評価するための詳細な指標を導入する。
フレームワークを現実世界の環境でデプロイし、UI認識とUI-Agentプロキシを統合して、この分野の将来的な進歩の基礎を築きます。
論文 参考訳(メタデータ) (2025-12-22T07:21:07Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - SymCERE: Symmetric Contrastive Learning for Robust Review-Enhanced Recommendation [2.087411180679868]
提案するSymCEREは,提案する偽陰性に対処するコントラスト学習手法である。
3つのプラットフォームからの15のデータセットの実験では、SymCEREがいくつかの強力なベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-04-03T00:40:09Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - VMI-VAE: Variational Mutual Information Maximization Framework for VAE
With Discrete and Continuous Priors [5.317548969642376]
変分オートエンコーダは、複雑なデータの潜在変数モデルを学習するためのスケーラブルな方法である。
本稿では,VAEのための変分相互情報最大化フレームワークを提案し,この問題に対処する。
論文 参考訳(メタデータ) (2020-05-28T12:44:23Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。