論文の概要: LaQual: A Novel Framework for Automated Evaluation of LLM App Quality
- arxiv url: http://arxiv.org/abs/2508.18636v1
- Date: Tue, 26 Aug 2025 03:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.65916
- Title: LaQual: A Novel Framework for Automated Evaluation of LLM App Quality
- Title(参考訳): LaQual: LLMアプリケーション品質の自動評価フレームワーク
- Authors: Yan Wang, Xinyi Hou, Yanjie Zhao, Weiguo Lin, Haoyu Wang, Junjun Si,
- Abstract要約: LaQualはLLMアプリの品質を評価するためのフレームワークだ。
LaQualは3つの主要なステージで構成されている。まず、異なるシナリオに正確にマッチするために、LLMアプリを階層的な方法でラベル付けし分類する。
人気のあるLLMアプリストアの実験では、LaQualが有効であることが示されている。
- 参考スコア(独自算出の注目度): 10.124358468702031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM app stores are quickly emerging as platforms that gather a wide range of intelligent applications based on LLMs, giving users many choices for content creation, coding support, education, and more. However, the current methods for ranking and recommending apps in these stores mostly rely on static metrics like user activity and favorites, which makes it hard for users to efficiently find high-quality apps. To address these challenges, we propose LaQual, an automated framework for evaluating the quality of LLM apps. LaQual consists of three main stages: first, it labels and classifies LLM apps in a hierarchical way to accurately match them to different scenarios; second, it uses static indicators, such as time-weighted user engagement and functional capability metrics, to filter out low-quality apps; and third, it conducts a dynamic, scenario-adaptive evaluation, where the LLM itself generates scenario-specific evaluation metrics, scoring rules, and tasks for a thorough quality assessment. Experiments on a popular LLM app store show that LaQual is effective. Its automated scores are highly consistent with human judgments (with Spearman's rho of 0.62 and p=0.006 in legal consulting, and rho of 0.60 and p=0.009 in travel planning). By effectively screening, LaQual can reduce the pool of candidate LLM apps by 66.7% to 81.3%. User studies further confirm that LaQual significantly outperforms baseline systems in decision confidence, comparison efficiency (with average scores of 5.45 compared to 3.30), and the perceived value of its evaluation reports (4.75 versus 2.25). Overall, these results demonstrate that LaQual offers a scalable, objective, and user-centered solution for finding and recommending high-quality LLM apps in real-world use cases.
- Abstract(参考訳): LLMアプリストアは、LLMに基づいて幅広いインテリジェントなアプリケーションを収集するプラットフォームとして急速に発展し、コンテンツ作成やコーディングサポート、教育など多くの選択肢をユーザに与えている。
しかし、これらのストアでアプリのランク付けとレコメンデーションを行う現在の方法は、主にユーザーのアクティビティやお気に入りのような静的なメトリクスに依存しているため、ユーザーが高品質なアプリを見つけるのが難しくなっている。
これらの課題に対処するため、LLMアプリの品質を評価するための自動化フレームワークであるLaQualを提案する。
LaQualは3つの主要なステージで構成されている。第1に、LLMアプリを階層的な方法で分類して、異なるシナリオに正確にマッチさせる。第2に、時間重み付けされたユーザエンゲージメントや機能機能メトリクスといった静的指標を使用して、低品質のアプリをフィルタリングする。
人気のあるLLMアプリストアの実験では、LaQualが有効であることが示されている。
自動スコアは人間の判断と非常に一致している(法的コンサルティングにおけるスピアマンのローは0.62、p=0.006、旅行計画におけるローは0.60、p=0.009)。
効果的にスクリーニングすることで、LaQual は候補の LLM アプリのプールを 66.7% から 81.3% に減らすことができる。
ユーザ調査により、LaQualは意思決定の信頼性、比較効率(平均スコアが3.30に対して5.45)、評価レポートの認識値(4.75対2.25)において、ベースラインシステムを大幅に上回っていることが確認された。
これらの結果は、LaQualが現実世界のユースケースで高品質なLLMアプリを見つけて推奨するためのスケーラブルで客観的でユーザ中心のソリューションを提供していることを実証している。
関連論文リスト
- Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。