論文の概要: Revisiting Sentiment Analysis for Software Engineering in the Era of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11113v2
- Date: Thu, 19 Oct 2023 13:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:59:45.628491
- Title: Revisiting Sentiment Analysis for Software Engineering in the Era of
Large Language Models
- Title(参考訳): 大規模言語モデル時代のソフトウェア工学における感情分析の再検討
- Authors: Ting Zhang and Ivana Clairine Irsan and Ferdian Thung and David Lo
- Abstract要約: ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能について検討した。
実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。
- 参考スコア(独自算出の注目度): 12.440597259254286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software development is an inherently collaborative process, where various
stakeholders frequently express their opinions and emotions across diverse
platforms. Recognizing the sentiments conveyed in these interactions is crucial
for the effective development and ongoing maintenance of software systems. Over
the years, many tools have been proposed to aid in sentiment analysis, but
accurately identifying the sentiments expressed in software engineering
datasets remains challenging.
Although fine-tuned smaller large language models (sLLMs) have shown
potential in handling software engineering tasks, they struggle with the
shortage of labeled data. With the emergence of bigger large language models
(bLLMs), it is pertinent to investigate whether they can handle this challenge
in the context of sentiment analysis for software engineering. In this work, we
undertake a comprehensive empirical study using five established datasets. We
assess the performance of three open-source bLLMs in both zero-shot and
few-shot scenarios. Additionally, we compare them with fine-tuned sLLMs.
Our experimental findings demonstrate that bLLMs exhibit state-of-the-art
performance on datasets marked by limited training data and imbalanced
distributions. bLLMs can also achieve excellent performance under a zero-shot
setting. However, when ample training data is available or the dataset exhibits
a more balanced distribution, fine-tuned sLLMs can still achieve superior
results.
- Abstract(参考訳): ソフトウェア開発は本質的に協調的なプロセスであり、様々な利害関係者がさまざまなプラットフォームで意見や感情を表現します。
これらの相互作用で伝達される感情を認識することは、ソフトウェアシステムの効果的な開発と継続的なメンテナンスに不可欠です。
長年にわたり、感情分析を支援するツールが提案されてきたが、ソフトウェアエンジニアリングデータセットで表現される感情を正確に識別することは、依然として困難である。
微調整された小さな大言語モデル(sLLM)は、ソフトウェアエンジニアリングタスクを扱う可能性を示しているが、ラベル付きデータの不足に苦慮している。
大規模言語モデル(bLLMs)の出現に伴い、ソフトウェア工学における感情分析の文脈において、この課題に対処できるかどうかを検討することが重要となる。
本研究では、5つの確立したデータセットを用いた総合的な実証研究を行う。
ゼロショットシナリオと少数ショットシナリオの両方において,オープンソースの3つのbLLMの性能を評価する。
さらに、細調整されたsLLMと比較する。
実験により,bLLMsは訓練データと不均衡分布の限られたデータセットに対して最先端の性能を示すことが示された。
bLLMはゼロショット設定でも優れた性能が得られる。
しかし、十分なトレーニングデータやデータセットがよりバランスの取れた分布を示す場合、微調整されたsLLMは優れた結果が得られる。
関連論文リスト
- LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。
本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。
合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文 参考訳(メタデータ) (2024-11-01T00:24:59Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Interactive Weak Supervision: Learning Useful Heuristics for Data
Labeling [19.24454872492008]
弱監督は、基礎的な真理ラベルなしでラベル付きデータセットを作成するための有望な代替手段を提供する。
本稿では,対話型弱監督のための最初のフレームワークを開発し,その手法が反復を提案し,ユーザフィードバックから学習する。
私たちの実験は、非常に競争力のあるテストセット性能を達成するモデルのトレーニングに少数のフィードバックが必要であることを示しています。
論文 参考訳(メタデータ) (2020-12-11T00:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。