論文の概要: Leveraging Large Language Models for Mobile App Review Feature Extraction
- arxiv url: http://arxiv.org/abs/2408.01063v1
- Date: Fri, 2 Aug 2024 07:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:17:04.739840
- Title: Leveraging Large Language Models for Mobile App Review Feature Extraction
- Title(参考訳): モバイルアプリレビュー機能抽出のための大規模言語モデルの活用
- Authors: Quim Motger, Alessio Miaschi, Felice Dell'Orletta, Xavier Franch, Jordi Marco,
- Abstract要約: 本研究では,エンコーダのみの大規模言語モデルがモバイルアプリレビューから特徴抽出を促進できるという仮説を考察する。
クラウドソーシングされたアノテーションを産業的文脈から活用することにより、特徴抽出を教師付きトークン分類タスクとして再定義する。
実験により,抽出した特徴の精度とリコールが向上し,性能効率が向上することが確認された。
- 参考スコア(独自算出の注目度): 4.879919005707447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile app review analysis presents unique challenges due to the low quality, subjective bias, and noisy content of user-generated documents. Extracting features from these reviews is essential for tasks such as feature prioritization and sentiment analysis, but it remains a challenging task. Meanwhile, encoder-only models based on the Transformer architecture have shown promising results for classification and information extraction tasks for multiple software engineering processes. This study explores the hypothesis that encoder-only large language models can enhance feature extraction from mobile app reviews. By leveraging crowdsourced annotations from an industrial context, we redefine feature extraction as a supervised token classification task. Our approach includes extending the pre-training of these models with a large corpus of user reviews to improve contextual understanding and employing instance selection techniques to optimize model fine-tuning. Empirical evaluations demonstrate that this method improves the precision and recall of extracted features and enhances performance efficiency. Key contributions include a novel approach to feature extraction, annotated datasets, extended pre-trained models, and an instance selection mechanism for cost-effective fine-tuning. This research provides practical methods and empirical evidence in applying large language models to natural language processing tasks within mobile app reviews, offering improved performance in feature extraction.
- Abstract(参考訳): モバイルアプリレビュー分析では,ユーザ生成ドキュメントの低品質,主観的バイアス,ノイズのある内容など,ユニークな課題が提示される。
これらのレビューから特徴を抽出することは、機能の優先順位付けや感情分析といったタスクには不可欠ですが、それでも難しい作業です。
一方、Transformerアーキテクチャに基づくエンコーダのみのモデルでは、複数のソフトウェアエンジニアリングプロセスの分類と情報抽出タスクに有望な結果が示されている。
本研究では,エンコーダのみの大規模言語モデルがモバイルアプリレビューから特徴抽出を促進できるという仮説を考察する。
クラウドソーシングされたアノテーションを産業的文脈から活用することにより、特徴抽出を教師付きトークン分類タスクとして再定義する。
我々のアプローチは、コンテキスト理解を改善するためにユーザーレビューの膨大なコーパスでこれらのモデルの事前学習を拡張し、モデル微調整を最適化するためにインスタンス選択技術を採用することである。
実験により,抽出した特徴の精度とリコールが向上し,性能効率が向上することが確認された。
主なコントリビューションには、特徴抽出に対する新しいアプローチ、注釈付きデータセット、拡張事前訓練されたモデル、コスト効率の良い微調整のためのインスタンス選択メカニズムなどがある。
本研究は,モバイルアプリレビューにおける自然言語処理タスクに大規模言語モデルを適用するための実践的手法と実証的エビデンスを提供し,特徴抽出の性能向上を提供する。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - T-FREX: A Transformer-based Feature Extraction Method from Mobile App
Reviews [5.235401361674881]
モバイルアプリレビュー機能抽出のためのトランスフォーマーベースの完全自動アプローチであるT-FREXを提案する。
まず、実際のクラウドソースのソフトウェアレコメンデーションプラットフォームで、ユーザから真実の一連の機能を収集します。
次に、この新たに作成されたデータセットを使用して、名前付きエンティティ認識タスクで複数のLCMを微調整する。
論文 参考訳(メタデータ) (2024-01-08T11:43:03Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - A Cloud-based Machine Learning Pipeline for the Efficient Extraction of
Insights from Customer Reviews [0.0]
本稿では,パイプラインに統合された機械学習手法を用いて,顧客レビューから洞察を抽出するクラウドベースのシステムを提案する。
トピックモデリングには、自然言語処理用に設計されたトランスフォーマーベースニューラルネットワークを用いる。
本システムでは,このタスクの既存のトピックモデリングやキーワード抽出ソリューションよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T14:07:52Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。