論文の概要: Evaluating LLM-Based Mobile App Recommendations: An Empirical Study
- arxiv url: http://arxiv.org/abs/2510.18364v1
- Date: Tue, 21 Oct 2025 07:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.133641
- Title: Evaluating LLM-Based Mobile App Recommendations: An Empirical Study
- Title(参考訳): LLMベースのモバイルアプリレコメンデーションの評価 : 実証的研究
- Authors: Quim Motger, Xavier Franch, Vincenzo Gervasi, Jordi Marco,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のプロンプトを通じてモバイルアプリケーションに推奨されるようになってきている。
本稿では,LLMがモバイルアプリレコメンデーションをどのように生成し,正当化し,ランク付けするかを実証分析する。
- 参考スコア(独自算出の注目度): 1.9932595193134042
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to recommend mobile applications through natural language prompts, offering a flexible alternative to keyword-based app store search. Yet, the reasoning behind these recommendations remains opaque, raising questions about their consistency, explainability, and alignment with traditional App Store Optimization (ASO) metrics. In this paper, we present an empirical analysis of how widely-used general purpose LLMs generate, justify, and rank mobile app recommendations. Our contributions are: (i) a taxonomy of 16 generalizable ranking criteria elicited from LLM outputs; (ii) a systematic evaluation framework to analyse recommendation consistency and responsiveness to explicit ranking instructions; and (iii) a replication package to support reproducibility and future research on AI-based recommendation systems. Our findings reveal that LLMs rely on a broad yet fragmented set of ranking criteria, only partially aligned with standard ASO metrics. While top-ranked apps tend to be consistent across runs, variability increases with ranking depth and search specificity. LLMs exhibit varying sensitivity to explicit ranking instructions - ranging from substantial adaptations to near-identical outputs - highlighting their complex reasoning dynamics in conversational app discovery. Our results aim to support end-users, app developers, and recommender-systems researchers in navigating the emerging landscape of conversational app discovery.
- Abstract(参考訳): 大きな言語モデル(LLM)は、キーワードベースのアプリストア検索の柔軟な代替手段として、自然言語プロンプトを通じてモバイルアプリケーションを推奨するために、ますます使われている。
しかし、これらのレコメンデーションの背後にある理由は不透明であり、一貫性、説明可能性、従来のApp Store Optimization(ASO)メトリクスとの整合性に関する疑問が提起されている。
本稿では,LLMがモバイルアプリレコメンデーションをどのように生成し,正当化し,ランク付けするかを実証的に分析する。
私たちの貢献は次のとおりです。
i) LLM出力から導出される16の総合格付け基準の分類
二 明示的な格付け指示に対する推薦の整合性及び応答性を分析するための体系的評価枠組み
三 再現性をサポートする複製パッケージ及びAIベースのレコメンデーションシステムに関する今後の研究。
以上の結果から,LSMは標準ASO指標と部分的に一致した広範に断片化されたランキング基準に依存していることが明らかとなった。
トップランクのアプリはラン毎に一貫性がある傾向にあるが、ランキングの深さと検索の特異性によって、バリエーションが増加する。
LLMは、実質的な適応からほぼ同一のアウトプットまで、明確なランク付け命令に対してさまざまな感度を示しており、会話アプリ発見における複雑な推論のダイナミクスを強調している。
この結果は,会話型アプリ発見の新たな展望をナビゲートする上で,エンドユーザー,アプリ開発者,レコメンデータシステム研究者を支援することを目的としている。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Evaluating Position Bias in Large Language Model Recommendations [3.430780143519032]
大規模言語モデル(LLM)は、リコメンデーションタスクのための汎用ツールとして、ますます研究されている。
LLMをベースとした推薦モデルは位置バイアスに悩まされ、その場合、プロンプト内の候補項目の順序がLLMの推薦に不均等に影響を及ぼす可能性がある。
本稿では,LLMレコメンデーションモデルにおける位置バイアスを軽減するための新たなプロンプト戦略であるRightingをIterative Selection経由で導入する。
論文 参考訳(メタデータ) (2025-08-04T03:30:26Z) - From Prompting to Alignment: A Generative Framework for Query Recommendation [35.654879254147964]
本稿では,クエリ生成とユーザの好みを一致させる生成クエリ推薦(GQR)フレームワークを提案する。
具体的には、多様なクエリレコメンデーションタスクを普遍的なプロンプトフレームワークで統一する。
また,クエリワイドCTR予測器をプロセス報酬モデルとしてトレーニングするCTRアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T13:21:29Z) - Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs [38.83854553636802]
大規模言語モデル(LLM)はRecSysの基礎アーキテクチャに革命をもたらした。
既存の研究の多くは、リコメンデーションを生成するための固定されたタスク固有のプロンプトテンプレートに依存している。
これは、一般的に使用されるデータセットには、現実世界のレコメンデーションシナリオを反映した高品質なテキストユーザークエリがないためである。
我々は、複雑なユーザレコメンデーションニーズを処理するLLMの能力にアクセスするために設計された新しいデータセットであるRecBench+を紹介する。
論文 参考訳(メタデータ) (2025-03-12T13:28:23Z) - Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。
本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。
提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文 参考訳(メタデータ) (2024-01-10T08:28:56Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。