論文の概要: Shedding Light on Software Engineering-specific Metaphors and Idioms
- arxiv url: http://arxiv.org/abs/2312.10297v1
- Date: Sat, 16 Dec 2023 02:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:27:34.484622
- Title: Shedding Light on Software Engineering-specific Metaphors and Idioms
- Title(参考訳): ソフトウェアエンジニアリング固有のメタファーとイディオムのシェディングライト
- Authors: Mia Mohammad Imran, Preetha Chatterjee, and Kostadin Damevski
- Abstract要約: 比喩やイディオムのような比喩的な言語は、日常的なコミュニケーションにおいて一般的である。
また、GitHubへのコメントなど、Software Engineering (SE)チャネルで見ることができる。
驚くべきことに、SEコミュニケーションにおける図形言語が自動ツールのパフォーマンスに与える影響についての研究が不足している。
- 参考スコア(独自算出の注目度): 8.273471398838534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Use of figurative language, such as metaphors and idioms, is common in our
daily-life communications, and it can also be found in Software Engineering
(SE) channels, such as comments on GitHub. Automatically interpreting
figurative language is a challenging task, even with modern Large Language
Models (LLMs), as it often involves subtle nuances. This is particularly true
in the SE domain, where figurative language is frequently used to convey
technical concepts, often bearing developer affect (e.g., `spaghetti code').
Surprisingly, there is a lack of studies on how figurative language in SE
communications impacts the performance of automatic tools that focus on
understanding developer communications, e.g., bug prioritization, incivility
detection. Furthermore, it is an open question to what extent state-of-the-art
LLMs interpret figurative expressions in domain-specific communication such as
software engineering. To address this gap, we study the prevalence and impact
of figurative language in SE communication channels. This study contributes to
understanding the role of figurative language in SE, the potential of LLMs in
interpreting them, and its impact on automated SE communication analysis. Our
results demonstrate the effectiveness of fine-tuning LLMs with figurative
language in SE and its potential impact on automated tasks that involve affect.
We found that, among three state-of-the-art LLMs, the best improved fine-tuned
versions have an average improvement of 6.66% on a GitHub emotion
classification dataset, 7.07% on a GitHub incivility classification dataset,
and 3.71% on a Bugzilla bug report prioritization dataset.
- Abstract(参考訳): 比喩やイディオムのような比喩的な言語の使用は、日々のコミュニケーションでは一般的であり、GitHubでのコメントなど、ソフトウェア工学(SE)のチャネルでも見ることができる。
現代の大規模言語モデル(LLM)でさえも、しばしば微妙なニュアンスを伴うため、図形言語の自動解釈は難しい作業である。
これは特にseドメインにおいて当てはまり、フィギュラティブ言語は技術的な概念を伝えるために頻繁に使われ、しばしば開発者に影響を与える(例えば'spaghetti code')。
驚くべきことに、SEコミュニケーションにおける図形言語が開発者のコミュニケーションを理解することに焦点を当てた自動ツールのパフォーマンスに与える影響についての研究が不足している。
さらに、最先端のLLMがソフトウェア工学のようなドメイン固有のコミュニケーションにおける図式表現をどの程度解釈するかについては、オープンな疑問である。
このギャップに対処するために,SE通信チャネルにおける図形言語の普及と影響について検討する。
本研究は,SEにおける図形言語の役割,LLMの解釈における可能性,および自動SE通信解析への影響の理解に寄与する。
本研究は,SE言語を用いた微調整LDMの有効性と,影響のある自動化タスクに対する潜在的影響を示すものである。
最先端のllmが3つある中で、最も改善された微調整バージョンは、githubの感情分類データセットで平均6.66%、githubのインキュビティ分類データセットで7.07%、bugzillaのバグレポート優先順位データセットで3.71%改善されていることが分かりました。
関連論文リスト
- LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification [0.07989135005592125]
大規模言語モデル(LLM)は、複雑な自然言語テキストの正確な理解のための新しい道を提供する。
LLMベースの新しいフレームワークが提案され、Lingguistics-aware In-context Learning with Data Augmentation (LaiDA) と名付けられた。
グラフアテンションネットワークエンコーダは言語的にリッチな特徴表現を生成し、同様の例を検索する。
論文 参考訳(メタデータ) (2024-08-10T02:02:26Z) - Leveraging Code to Improve In-context Learning for Semantic Parsing [48.66031267718704]
In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。
我々は,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)ドメイン記述を構造化したプロンプトを増強する。
論文 参考訳(メタデータ) (2023-11-16T02:50:06Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - FLUTE: Figurative Language Understanding and Textual Explanations [37.83909874945428]
FLUTEは8000の図式NLIインスタンスのデータセットで、説明とともにリリースします。
我々は、GPT-3を人間の専門家と組み合わせることで、データセットの作成をスケールアップできることを示す。
論文 参考訳(メタデータ) (2022-05-24T23:25:02Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。