論文の概要: Revisiting Sentiment Analysis for Software Engineering in the Era of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11113v2
- Date: Thu, 19 Oct 2023 13:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:59:45.628491
- Title: Revisiting Sentiment Analysis for Software Engineering in the Era of
Large Language Models
- Title(参考訳): 大規模言語モデル時代のソフトウェア工学における感情分析の再検討
- Authors: Ting Zhang and Ivana Clairine Irsan and Ferdian Thung and David Lo
- Abstract要約: ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能について検討した。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
- 参考スコア(独自算出の注目度): 12.440597259254286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software development is an inherently collaborative process, where various
stakeholders frequently express their opinions and emotions across diverse
platforms. Recognizing the sentiments conveyed in these interactions is crucial
for the effective development and ongoing maintenance of software systems. Over
the years, many tools have been proposed to aid in sentiment analysis, but
accurately identifying the sentiments expressed in software engineering
datasets remains challenging.
Although fine-tuned smaller large language models (sLLMs) have shown
potential in handling software engineering tasks, they struggle with the
shortage of labeled data. With the emergence of bigger large language models
(bLLMs), it is pertinent to investigate whether they can handle this challenge
in the context of sentiment analysis for software engineering. In this work, we
undertake a comprehensive empirical study using five established datasets. We
assess the performance of three open-source bLLMs in both zero-shot and
few-shot scenarios. Additionally, we compare them with fine-tuned sLLMs.
Our experimental findings demonstrate that bLLMs exhibit state-of-the-art
performance on datasets marked by limited training data and imbalanced
distributions. bLLMs can also achieve excellent performance under a zero-shot
setting. However, when ample training data is available or the dataset exhibits
a more balanced distribution, fine-tuned sLLMs can still achieve superior
results.
- Abstract(参考訳): ソフトウェア開発は本質的に協調的なプロセスであり、様々な利害関係者がさまざまなプラットフォームで意見や感情を表現します。
これらの相互作用で伝達される感情を認識することは、ソフトウェアシステムの効果的な開発と継続的なメンテナンスに不可欠です。
長年にわたり、感情分析を支援するツールが提案されてきたが、ソフトウェアエンジニアリングデータセットで表現される感情を正確に識別することは、依然として困難である。
微調整された小さな大言語モデル(sLLM)は、ソフトウェアエンジニアリングタスクを扱う可能性を示しているが、ラベル付きデータの不足に苦慮している。
大規模言語モデル(bLLMs)の出現に伴い、ソフトウェア工学における感情分析の文脈において、この課題に対処できるかどうかを検討することが重要となる。
本研究では、5つの確立したデータセットを用いた総合的な実証研究を行う。
ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能を評価する。
さらに、細調整されたsLLMと比較する。
実験により,bLLMsは訓練データと不均衡分布の限られたデータセットに対して最先端の性能を示すことが示された。
bLLMはゼロショット設定でも優れた性能が得られる。
しかし、十分なトレーニングデータやデータセットがよりバランスの取れた分布を示す場合、微調整されたsLLMは優れた結果が得られる。
関連論文リスト
- Data Interpreter: An LLM Agent For Data Science [43.99482533437711]
Data Interpreterは、コードで解決するように設計されたソリューションである。
データサイエンスにおける問題解決を強化するための3つの重要なテクニックを強調している。
MATHデータセットは26%増加し、オープンなタスクは112%改善した。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted
Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした
定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Modelling Concurrency Bugs Using Machine Learning [0.0]
このプロジェクトは、一般的な機械学習アプローチと最近の機械学習アプローチを比較することを目的としている。
我々は、実生活(同時)プログラムをシミュレートする範囲で生成する合成データセットを定義する。
各種機械学習モデルモデルの基本的な限界に関する仮説を定式化する。
論文 参考訳(メタデータ) (2023-05-08T17:30:24Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Latent Variable Method Demonstrator -- Software for Understanding
Multivariate Data Analytics Algorithms [0.0]
この記事では、潜在変数の方法を教え、学習し、理解するための対話型ソフトウェア、Latent Variable Demonstrator(LAVADE)について説明する。
ユーザは、Partial Least Squares(PLS)やPrincipal Component Regression(PCR)といった遅延変数メソッドと他の回帰メソッドをインタラクティブに比較することができる。
このソフトウェアにはデータ生成方法と3つの化学プロセスデータセットが含まれており、データセットの結果を異なるレベルの複雑さで比較することができる。
論文 参考訳(メタデータ) (2022-05-17T07:02:41Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。