論文の概要: Conventional Commit Classification using Large Language Models and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2605.02033v1
- Date: Sun, 03 May 2026 19:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.052093
- Title: Conventional Commit Classification using Large Language Models and Prompt Engineering
- Title(参考訳): 大規模言語モデルとプロンプト工学を用いた従来のコミット分類
- Authors: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid,
- Abstract要約: 従来のコミットはコミットメッセージを書くための構造化フォーマットを提供し、可読性、ソフトウェアメンテナンスを改善し、自動化ツールを可能にする。
本稿では,大規模言語モデル(LLM)を即時エンジニアリングによって活用することで,学習自由な代替手段を検討する。
様々なスケールの3つのオープンソース LLM に対して,ゼロショット,少数ショット,チェーンオブ思想の3つのプロンプト戦略を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional commits provide a structured format for writing commit messages, which improves readability, software maintenance, and enables automation tools such as changelog generators and semantic versioning systems. Existing approaches to conventional commit classification typically rely on ML/DL models trained on large labeled datasets. In this paper, we investigated a training-free alternative by leveraging large language models (LLMs) through prompt engineering. Rather than building a task-specific classifier, we evaluate three prompting strategies, such as zero-shot, few-shot, and chain-of-thought, across three open-source LLMs of varying scale: Mistral-7B-Instruct, LLaMA-3-8B, and DeepSeek-R1-32B. Classification is performed directly on code diffs extracted from a balanced dataset of 3,200 commits mined from the InfluxDB repository, without any model fine-tuning. Our results show that few-shot prompting consistently achieves the highest accuracy, while chain-of-thought prompting does not yield additional gains for this classification task. Among the evaluated models, DeepSeek-R1-32B achieves the strongest overall performance, suggesting that model scale plays a meaningful role in conventional commit classification. These findings provide practical guidance for researchers and practitioners seeking to automate commit classification without the overhead of curating and maintaining labeled training data.
- Abstract(参考訳): 従来のコミットはコミットメッセージを書くための構造化フォーマットを提供し、読みやすさ、ソフトウェアのメンテナンスを改善し、変更ログジェネレータやセマンティックバージョニングシステムのような自動化ツールを可能にする。
従来のコミット分類への既存のアプローチは通常、大きなラベル付きデータセットでトレーニングされたML/DLモデルに依存している。
本稿では,大規模言語モデル(LLM)を即時エンジニアリングにより活用することで,学習自由な代替手段について検討する。
タスク固有の分類器を構築するのではなく、さまざまなスケールの3つのオープンソースLCM(Mistral-7B-Instruct、LLaMA-3-8B、DeepSeek-R1-32B)で、ゼロショット、少数ショット、チェーンオブ思想の3つのプロンプト戦略を評価する。
分類は、InfluxDBリポジトリから抽出された3,200のコミットのバランスのとれたデータセットから抽出されたコード差分で直接実行される。
以上の結果から,少ないショットプロンプトは高い精度を達成する一方,チェーン・オブ・シークレット・プロンプトは,この分類作業に付加的な利得を与えないことが明らかとなった。
評価モデルのうち,DeepSeek-R1-32Bは,従来のコミット分類において,モデルスケールが重要な役割を担っていることを示唆した。
これらの知見は,ラベル付きトレーニングデータの収集・維持のオーバーヘッドを伴わずに,コミット分類の自動化を目指す研究者や実践者に対して,実践的なガイダンスを提供するものである。
関連論文リスト
- SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Heterogeneous LLM Methods for Ontology Learning (Few-Shot Prompting, Ensemble Typing, and Attention-Based Taxonomies) [46.54026795022501]
LLMs4OL 2025チャレンジのタスクA,B,Cに対処する包括的システムを提案する。
提案手法は、検索強化プロンプト、ゼロショット分類、アテンションに基づくグラフモデリングを組み合わせたものである。
これらのモジュラーでタスク固有のソリューションによって、公式のリーダーボードで上位の成果を得られるようになりました。
論文 参考訳(メタデータ) (2025-08-26T20:50:16Z) - GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。