論文の概要: CMER: A Context-Aware Approach for Mining Ethical Concern-related App Reviews
- arxiv url: http://arxiv.org/abs/2507.09049v1
- Date: Fri, 11 Jul 2025 21:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.171589
- Title: CMER: A Context-Aware Approach for Mining Ethical Concern-related App Reviews
- Title(参考訳): CMER: 倫理的懸念に関連するアプリレビューをマイニングするためのコンテキストアウェアアプローチ
- Authors: Aakash Sorathiya, Gouri Ginde,
- Abstract要約: 本研究は、倫理的関心事関連アプリレビューを大規模に抽出するCMER(UnderlineContext-Aware Approach for UnderlineEthical Concern-related App UnderlineReviews)を提案する。
CMERは自然言語推論(NLI)とデコーダ専用(LLaMAライク)大型言語モデル(LLM)を組み合わせる
モバイル投資アプリのアプリレビュー382万件のデータセットから,プライバシとセキュリティ関連レビュー(PSR)をマイニングすることでCMERの有効性を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing proliferation of mobile applications in our daily lives, the concerns surrounding ethics have surged significantly. Users communicate their feedback in app reviews, frequently emphasizing ethical concerns, such as privacy and security. Incorporating these reviews has proved to be useful for many areas of software engineering (e.g., requirement engineering, testing, etc.). However, app reviews related to ethical concerns generally use domain-specific language and are typically overshadowed by more generic categories of user feedback, such as app reliability and usability. Thus, making automated extraction a challenging and time-consuming effort. This study proposes CMER (A \underline{C}ontext-Aware Approach for \underline{M}ining \underline{E}thical Concern-related App \underline{R}eviews), a novel approach that combines Natural Language Inference (NLI) and a decoder-only (LLaMA-like) Large Language Model (LLM) to extract ethical concern-related app reviews at scale. In CMER, NLI provides domain-specific context awareness by using domain-specific hypotheses, and the Llama-like LLM eliminates the need for labeled data in the classification task. We evaluated the validity of CMER by mining privacy and security-related reviews (PSRs) from the dataset of more than 382K app reviews of mobile investment apps. First, we evaluated four NLI models and compared the results of domain-specific hypotheses with generic hypotheses. Next, we evaluated three LLMs for the classification task. Finally, we combined the best NLI and LLM models (CMER) and extracted 2,178 additional PSRs overlooked by the previous study using a keyword-based approach, thus demonstrating the effectiveness of CMER. These reviews can be further refined into actionable requirement artifacts.
- Abstract(参考訳): 日常生活におけるモバイルアプリケーションの普及に伴い、倫理に関する懸念が大幅に高まっている。
ユーザはアプリレビューでフィードバックを伝え、プライバシやセキュリティといった倫理的懸念を強調します。
これらのレビューを組み込むことは、ソフトウェアエンジニアリングの多くの分野(例えば、要件エンジニアリング、テストなど)で有用であることが証明されている。
しかしながら、倫理的懸念に関連するアプリレビューは一般的にドメイン固有の言語を使用し、アプリの信頼性やユーザビリティといった、より一般的なユーザフィードバックのカテゴリによって隠れています。
したがって、自動抽出は困難で時間を要する作業である。
本研究では、自然言語推論(NLI)とデコーダ限定(LLaMAライク)大規模言語モデル(LLM)を組み合わせて、倫理的関心事関連アプリレビューを大規模に抽出するCMER(A \underline{C}ontext-Aware Approach for \underline{M}ining \underline{E}thical Concern-related App \underline{R}eviews)を提案する。
CMERでは、NLIはドメイン固有の仮説を用いてドメイン固有のコンテキスト認識を提供し、LlamaライクなLLMは分類タスクにおけるラベル付きデータの必要性を排除する。
モバイル投資アプリのアプリレビュー382万件のデータセットから,プライバシとセキュリティ関連レビュー(PSR)をマイニングすることでCMERの有効性を評価した。
まず、4つのNLIモデルを評価し、ドメイン固有の仮説と一般的な仮説を比較した。
次に,3つのLCMを分類タスクとして評価した。
最後に,最も優れたNLIモデルとLLMモデル(CMER)を組み合わせ,キーワードベースアプローチを用いて従来研究で見過ごされていた2,178個のPSRを抽出し,CMERの有効性を実証した。
これらのレビューは、実行可能な要件アーティファクトにさらに洗練することができる。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics [1.3707925738322797]
本稿では,専門家評価に対する評価厳密度を定量化するLeniencyと呼ばれる新しい指標を提案する。
包括的分析により,学習環境におけるコードの論理的評価が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-03-31T11:59:43Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。
本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文 参考訳(メタデータ) (2024-11-25T04:07:16Z) - Beyond Keywords: A Context-based Hybrid Approach to Mining Ethical Concern-related App Reviews [0.0]
倫理的懸念に関連するアプリケーションレビューは一般的にドメイン固有の言語を使用し、より多様な語彙を使って表現される。
本研究では、自然言語推論(NLI)とデコーダ限定(LLaMAライク)大規模言語モデル(LLM)を組み合わせて、倫理的関心事に関するアプリレビューを大規模に抽出する、新しい自然言語処理(NLI)アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-11T22:08:48Z) - Towards Extracting Ethical Concerns-related Software Requirements from App Reviews [0.0]
本研究は、Uberモバイルアプリ(人気のタクシー/ライドアプリ)のアプリレビューを分析した。
アプリレビューからソフトウェア要件を抽出するために知識グラフ(KG)モデルを活用する新しいアプローチを提案する。
私たちのフレームワークは,関連するエンティティと関係を持ったオントロジーを開発すること,アプリレビューから重要なエンティティを抽出すること,それら間のコネクションを作成すること,という3つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-19T04:50:32Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。
オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T04:00:30Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。