論文の概要: Towards Recommending Usability Improvements with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.16165v1
- Date: Fri, 22 Aug 2025 07:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.294975
- Title: Towards Recommending Usability Improvements with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによるユーザビリティ向上への取り組み
- Authors: Sebastian Lubos, Alexander Felfernig, Gerhard Leitner, Julian Schwazer,
- Abstract要約: ユーザビリティテストや検査などの一般的な評価手法は、有効だがリソース集約であり、専門家の関与を必要とする。
マルチモーダルLCMの最近の進歩は、ユーザビリティ評価プロセスを自動化するための有望な機会を提供する。
以上の結果から,LCMがより高速で低コストなユーザビリティ評価を可能にする可能性が示唆された。
- 参考スコア(独自算出の注目度): 40.77787659104315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Usability describes a set of essential quality attributes of user interfaces (UI) that influence human-computer interaction. Common evaluation methods, such as usability testing and inspection, are effective but resource-intensive and require expert involvement. This makes them less accessible for smaller organizations. Recent advances in multimodal LLMs offer promising opportunities to automate usability evaluation processes partly by analyzing textual, visual, and structural aspects of software interfaces. To investigate this possibility, we formulate usability evaluation as a recommendation task, where multimodal LLMs rank usability issues by severity. We conducted an initial proof-of-concept study to compare LLM-generated usability improvement recommendations with usability expert assessments. Our findings indicate the potential of LLMs to enable faster and more cost-effective usability evaluation, which makes it a practical alternative in contexts with limited expert resources.
- Abstract(参考訳): ユーザビリティ(Usability)は、ヒューマン・コンピュータ・インタラクションに影響を与えるユーザ・インタフェース(UI)の重要な品質特性の集合を記述する。
ユーザビリティテストや検査などの一般的な評価手法は、有効だがリソース集約であり、専門家の関与を必要とする。
これにより、小さな組織ではアクセスしにくくなります。
マルチモーダルLLMの最近の進歩は、ソフトウェアインタフェースのテキスト、視覚、構造的側面を分析することによって、ユーザビリティ評価プロセスを自動化する有望な機会を提供する。
この可能性を検討するために,マルチモーダルLLMが重要度でユーザビリティの問題をランク付けするレコメンデーションタスクとしてユーザビリティ評価を定式化する。
LLMによるユーザビリティ向上勧告とユーザビリティ専門家による評価を比較し,概念実証実験を行った。
本研究は, LLMがより高速で低コストなユーザビリティ評価を実現する可能性を示し, 限られた専門家資源のコンテキストにおいて, 現実的な代替手段となることを示唆している。
関連論文リスト
- PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。