Fugu-MT 論文翻訳(概要): Towards Extracting Software Requirements from App Reviews using Seq2seq Framework

論文の概要: Towards Extracting Software Requirements from App Reviews using Seq2seq Framework

arxiv url: http://arxiv.org/abs/2507.09039v2
Date: Sun, 20 Jul 2025 04:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 14:33:32.513232
Title: Towards Extracting Software Requirements from App Reviews using Seq2seq Framework
Title（参考訳）: Seq2seq Frameworkを使用したアプリレビューからソフトウェア要件を抽出する
Authors: Aakash Sorathiya, Gouri Ginde,
Abstract要約: 本研究では,シーケンシャル・ツー・シーケンス(Seq2seq)生成手法に基づく名前付きエンティティ認識(NER)タスクを提案する。本研究では,BiLSTMエンコーダとLSTMデコーダを組み込んだSeq2seqフレームワークを提案する。手動で注釈付き1000のレビューとクラウドソースによる23,816のレビューの2つのデータセットでフレームワークを評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile app reviews are a large-scale data source for software improvements. A key task in this context is effectively extracting requirements from app reviews to analyze the users' needs and support the software's evolution. Recent studies show that existing methods fail at this task since app reviews usually contain informal language, grammatical and spelling errors, and a large amount of irrelevant information that might not have direct practical value for developers. To address this, we propose a novel reformulation of requirements extraction as a Named Entity Recognition (NER) task based on the sequence-to-sequence (Seq2seq) generation approach. With this aim, we propose a Seq2seq framework, incorporating a BiLSTM encoder and an LSTM decoder, enhanced with a self-attention mechanism, GloVe embeddings, and a CRF model. We evaluated our framework on two datasets: a manually annotated set of 1,000 reviews (Dataset 1) and a crowdsourced set of 23,816 reviews (Dataset 2). The quantitative evaluation of our framework showed that it outperformed existing state-of-the-art methods with an F1 score of 0.96 on Dataset 2, and achieved comparable performance on Dataset 1 with an F1 score of 0.47.
Abstract（参考訳）: モバイルアプリレビューは、ソフトウェアの改善のための大規模なデータソースである。このコンテキストにおける重要なタスクは、ユーザのニーズを分析し、ソフトウェアの進化をサポートするために、アプリレビューから要求を効果的に抽出することである。近年の研究では、アプリレビューには通常、非公式な言語、文法や綴りの誤り、開発者にとって直接の実践的価値を持たない大量の無関係な情報が含まれているため、既存の手法がこのタスクで失敗していることが示されている。そこで本研究では,シーケンス・ツー・シーケンス(Seq2seq)生成手法に基づくNERタスクとして,要求抽出の新たな再構築を提案する。本研究では,BiLSTMエンコーダとLSTMデコーダを組み込んだSeq2seqフレームワークを提案する。我々は、手動で注釈付き1000レビュー(データセット1)とクラウドソースで23,816レビュー(データセット2)の2つのデータセットでフレームワークを評価した。その結果,F1スコアが0.96,F1スコアが0.47,Dataset 1スコアが0.96,F1スコアが0.47であった。

関連論文リスト

Sphinx: Benchmarking and Modeling for LLM-Driven Pull Request Review [37.98161722413899]
プルリクエスト(PR)レビューは、ソフトウェア品質を保証する上で不可欠だが、ノイズの多い監視、限られたコンテキスト理解、不適切な評価指標のため、依然として難しい。提案するPRレビュー用統合フレームワークであるSphinxは,(1)擬似修飾コードとマージコードを比較することによって,文脈に富んだ,意味論的根拠のあるレビューコメントを生成する構造化データ生成パイプライン,(2)実行可能な検証ポイントの構造化カバレッジに基づいてレビュー品質を評価するチェックリストに基づく評価ベンチマーク,(3)ルールベースで解釈可能な報酬を用いて,モデル動作を現実と整合させる新しいトレーニングパラダイムであるCRPOである。
論文参考訳（メタデータ） (2026-01-06T18:49:56Z)
VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文参考訳（メタデータ） (2025-11-25T04:14:52Z)
MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。 Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文参考訳（メタデータ） (2025-10-30T07:29:14Z)
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge [7.655956608192742]
OpenAIのSimpleQAに基づいて,Large Language Model (LLM) の短文事実性を評価するための1000プロンプトベンチマークであるSimpleQA Verifiedを導入する。 OpenAIのベンチマークでは、ノイズや不正なラベル、トピックバイアス、質問の冗長性など、重要な制限に対処している。この新しいベンチマークでは、Gemini 2.5 Proは最先端のF1スコア55.6を達成し、他のフロンティアモデルを上回っている。
論文参考訳（メタデータ） (2025-09-09T17:53:58Z)
Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-28T08:51:51Z)
Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文参考訳（メタデータ） (2025-05-13T18:50:03Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。 RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文参考訳（メタデータ） (2025-01-06T01:07:59Z)
How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文参考訳（メタデータ） (2024-04-08T15:53:29Z)
T-FREX: A Transformer-based Feature Extraction Method from Mobile App Reviews [5.235401361674881]
モバイルアプリレビュー機能抽出のためのトランスフォーマーベースの完全自動アプローチであるT-FREXを提案する。まず、実際のクラウドソースのソフトウェアレコメンデーションプラットフォームで、ユーザから真実の一連の機能を収集します。次に、この新たに作成されたデータセットを使用して、名前付きエンティティ認識タスクで複数のLCMを微調整する。
論文参考訳（メタデータ） (2024-01-08T11:43:03Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。 SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文参考訳（メタデータ） (2020-06-01T07:07:36Z)
Dynamic Refinement Network for Oriented and Densely Packed Object Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文参考訳（メタデータ） (2020-05-20T11:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。