論文の概要: A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering
- arxiv url: http://arxiv.org/abs/2507.07325v1
- Date: Wed, 09 Jul 2025 22:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.225782
- Title: A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering
- Title(参考訳): ソフトウェア工学における感性分析のためのドイツのゴールドスタンダードデータセット
- Authors: Martin Obaidi, Marc Herrmann, Elisa Schmid, Raymond Ochsner, Kurt Schneider, Jil Klünder,
- Abstract要約: ドイツの開発者フォーラムAndroid-Hilfe.deから抽出した5,949の独特な開発者ステートメントのデータセットを紹介した。
それぞれの声明には、ドイツ語を話すコンピュータサイエンスの学生4人による、Shaverらによる感情モデルに基づく6つの基本的な感情の1つが注釈付けされた。
結果から,このデータセットはドイツ語圏のソフトウェア工学コミュニティにおいて,感情分析を支援するのに十分な有効かつ堅牢であることが示唆された。
- 参考スコア(独自算出の注目度): 2.42509778995617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is an essential technique for investigating the emotional climate within developer teams, contributing to both team productivity and project success. Existing sentiment analysis tools in software engineering primarily rely on English or non-German gold-standard datasets. To address this gap, our work introduces a German dataset of 5,949 unique developer statements, extracted from the German developer forum Android-Hilfe.de. Each statement was annotated with one of six basic emotions, based on the emotion model by Shaver et al., by four German-speaking computer science students. Evaluation of the annotation process showed high interrater agreement and reliability. These results indicate that the dataset is sufficiently valid and robust to support sentiment analysis in the German-speaking software engineering community. Evaluation with existing German sentiment analysis tools confirms the lack of domain-specific solutions for software engineering. We also discuss approaches to optimize annotation and present further use cases for the dataset.
- Abstract(参考訳): センチメント分析は、開発者チーム内の感情的な気候を調査する上で不可欠なテクニックであり、チームの生産性とプロジェクトの成功に寄与します。
ソフトウェア工学における既存の感情分析ツールは、主に英語または非ドイツ語のゴールドスタンダードデータセットに依存している。
このギャップに対処するため、ドイツの開発者フォーラムであるAndroid-Hilfe.deから抽出した、5,949の独特な開発者ステートメントのデータセットを導入しました。
それぞれの声明には、ドイツ語を話すコンピュータサイエンスの学生4人による、Shaverらによる感情モデルに基づく6つの基本的な感情の1つが注釈付けされた。
アノテーションプロセスの評価は,高い相互一致と信頼性を示した。
これらの結果から,このデータセットはドイツ語圏のソフトウェア工学コミュニティにおいて,感情分析を支援するのに十分な有効かつ堅牢であることが示唆された。
既存のドイツの感情分析ツールによる評価は、ソフトウェア工学のためのドメイン固有のソリューションが欠如していることを確認する。
また、アノテーションを最適化し、データセットのさらなるユースケースを示すアプローチについても論じる。
関連論文リスト
- Towards Trustworthy Sentiment Analysis in Software Engineering: Dataset Characteristics and Tool Selection [2.756862194100542]
5つのプラットフォームから10の開発者コミュニケーションデータセットの言語的特徴と統計的特徴を分析した。
本稿では,新しいデータセットに対して適切な感情分析ツールを推奨するマッピング手法とアンケートを提案する。
論文 参考訳(メタデータ) (2025-07-02T20:50:25Z) - EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [60.61343989805093]
EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。
その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T09:49:57Z) - Sentiment Analysis Tools in Software Engineering: A Systematic Mapping Study [43.44042227196935]
私たちは、特定の目的のために、開発者やステークホルダーが感情分析ツールを選択するのを助けることを目的としています。
本研究は,(1)アプリケーション領域,(2)目的,(3)使用済みデータセット,(4)感情分析ツール開発へのアプローチ,(5)既存のツールの利用,(6)研究者が直面する困難について,106の論文から得られた知見を要約したものである。
論文 参考訳(メタデータ) (2025-02-11T19:02:25Z) - You Shall Know a Tool by the Traces it Leaves: The Predictability of Sentiment Analysis Tools [74.98850427240464]
感情分析ツールが同じデータセットで一致しないことを示す。
感傷的アノテーションに使用される感情ツールは,その結果から予測できることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:27:38Z) - Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models [11.388023221294686]
本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。
5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
論文 参考訳(メタデータ) (2023-10-17T09:53:03Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - A Dataset and BERT-based Models for Targeted Sentiment Analysis on
Turkish Texts [0.0]
対象感情分析に適した注釈付きトルコ語データセットを提案する。
目標感情分析の課題を達成するために,異なるアーキテクチャのBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T10:57:39Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。