論文の概要: A Comprehensive Study on the Use of Word Embedding Models in Software Engineering Domain
- arxiv url: http://arxiv.org/abs/2505.17634v1
- Date: Fri, 23 May 2025 08:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.936912
- Title: A Comprehensive Study on the Use of Word Embedding Models in Software Engineering Domain
- Title(参考訳): ソフトウェア工学領域における単語埋め込みモデルの利用に関する総合的研究
- Authors: Xiaohan Chen, Weiqin Zou, Lianyi Zhi, Qianshuang Meng, Jingxuan Zhang,
- Abstract要約: 本研究は,ソフトウェア工学(SE)領域における単語埋め込み(WE)モデルの利用に焦点を当てる。
メインストリームのソフトウェアエンジニアリングの会場で発表された181の初等的な研究が分析のために集められている。
一連のSEタスクで使用されるSEアーティファクトの実践的意味表現アプローチの採用や開発における課題と行動を明らかにする。
- 参考スコア(独自算出の注目度): 16.40945129377773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embedding (WE) techniques are advanced textual semantic representation models oriented from the natural language processing (NLP) area. Inspired by their effectiveness in facilitating various NLP tasks, more and more researchers attempt to adopt these WE models for their software engineering (SE) tasks, of which semantic representation of software artifacts such as bug reports and code snippets is the basis for further model building. However, existing studies are generally isolated from each other without comprehensive comparison and discussion. This not only makes the best practice of such cross-discipline technique adoption buried in scattered papers, but also makes us kind of blind to current progress in the semantic representation of SE artifacts. To this end, we decided to perform a comprehensive study on the use of WE models in the SE domain. 181 primary studies published in mainstream software engineering venues are collected for analysis. Several research questions related to the SE applications, the training strategy of WE models, the comparison with traditional semantic representation methods, etc., are answered. With the answers, we get a systematical view of the current practice of using WE for the SE domain, and figure out the challenges and actions in adopting or developing practical semantic representation approaches for the SE artifacts used in a series of SE tasks.
- Abstract(参考訳): 単語埋め込み(WE)技術は、自然言語処理(NLP)領域を指向した高度なテキスト意味表現モデルである。
様々なNLPタスクの促進に着想を得た研究者たちは、バグレポートやコードスニペットといったソフトウェアアーチファクトのセマンティック表現が、さらなるモデル構築の基礎となる、ソフトウェアエンジニアリング(SE)タスクにこれらのWEモデルを採用しようとしている。
しかし、既存の研究は概して、総合的な比較や議論なしに、互いに孤立している。
これは、散在する論文に埋もれているようなクロスディシデントテクニックの採用のベストプラクティスを作るだけでなく、SEアーティファクトのセマンティックな表現の現在の進歩を目の当たりにしている。
そこで我々は,SEドメインにおけるWEモデルの利用に関する総合的研究を行うことを決定した。
メインストリームのソフトウェアエンジニアリングの会場で発表された181の初等的な研究が分析のために集められている。
SE の適用,WE モデルのトレーニング戦略,従来の意味表現法との比較などに関するいくつかの研究課題に答える。
そして、一連のSEタスクで使用されるSEアーティファクトの実践的意味表現アプローチの採用や開発における課題と行動を明らかにする。
関連論文リスト
- Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models [3.6637903428898055]
本稿では,生成型大規模言語モデルによる学術テキスト間の関係抽出の改善に焦点をあてる。
この方法論は、ソフトウェア関連エンティティを抽出するために、GLMのコンテキスト内学習機能の使用を優先する。
SOMD共有タスクへの参加は、正確なソフトウェア引用プラクティスの重要性を強調します。
論文 参考訳(メタデータ) (2024-04-08T15:00:36Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - A Survey on Semantic Processing Techniques [38.32578417623237]
意味論の研究は言語学において多次元である。
計算意味処理の研究の深さと幅は、新しい技術で大きく改善できる。
論文 参考訳(メタデータ) (2023-10-22T15:09:51Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - The Use of NLP-Based Text Representation Techniques to Support
Requirement Engineering Tasks: A Systematic Mapping Review [1.5469452301122177]
研究の方向性は、語彙的・構文的特徴の使用から高度な埋め込み技術の使用へと変化した。
既存の文献の4つのギャップ、それらが問題となる理由、そして今後の研究がそれらにどう対処し始めるかを特定する。
論文 参考訳(メタデータ) (2022-05-17T02:47:26Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - A Systematic Literature Review on the Use of Deep Learning in Software
Engineering Research [22.21817722054742]
ソフトウェア開発タスクを自動化するために、ソフトウェア工学(SE)研究者が採用するテクニックのセットが、ディープラーニング(DL)の概念に根ざしている。
本稿では,SE & DLの交差点における研究の体系的な文献レビューを行う。
我々は、機械学習技術の特定の問題領域への適用を規定する一連の原則である学習の構成要素を中心に分析を行う。
論文 参考訳(メタデータ) (2020-09-14T15:28:28Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。