論文の概要: OLAF: Towards Robust LLM-Based Annotation Framework in Empirical Software Engineering
- arxiv url: http://arxiv.org/abs/2512.15979v1
- Date: Wed, 17 Dec 2025 21:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.829687
- Title: OLAF: Towards Robust LLM-Based Annotation Framework in Empirical Software Engineering
- Title(参考訳): OLAF:経験的ソフトウェア工学におけるロバストLCMベースのアノテーションフレームワークを目指して
- Authors: Mia Mohammad Imran, Tarannum Shaila Zaman,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学において、アノテーションタスクの自動化やアシストにますます使われている。
既存の研究では、信頼性、キャリブレーション、ドリフトの標準化された尺度が欠如していることが多い。
LLMに基づくアノテーションは、純粋に自動化されたアクティビティではなく、測定プロセスとして扱われるべきである。
- 参考スコア(独自算出の注目度): 2.74296307006009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in empirical software engineering (ESE) to automate or assist annotation tasks such as labeling commits, issues, and qualitative artifacts. Yet the reliability and reproducibility of such annotations remain underexplored. Existing studies often lack standardized measures for reliability, calibration, and drift, and frequently omit essential configuration details. We argue that LLM-based annotation should be treated as a measurement process rather than a purely automated activity. In this position paper, we outline the \textbf{Operationalization for LLM-based Annotation Framework (OLAF)}, a conceptual framework that organizes key constructs: \textit{reliability, calibration, drift, consensus, aggregation}, and \textit{transparency}. The paper aims to motivate methodological discussion and future empirical work toward more transparent and reproducible LLM-based annotation in software engineering research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コミットやイシュー、定性的アーティファクトのラベル付けなどのアノテーションタスクを自動化または補助するために、経験的ソフトウェア工学(ESE)でますます使われている。
しかし、そのようなアノテーションの信頼性と再現性はまだ未熟である。
既存の研究では、信頼性、キャリブレーション、ドリフトの標準化された尺度が欠如しており、重要な構成の詳細を省略することが多い。
LLMに基づくアノテーションは、純粋に自動化されたアクティビティではなく、測定プロセスとして扱われるべきである。
本稿では, LLM ベースのアノテーションフレームワーク (OLAF) に対する \textbf{Operationalization for LLM-based Annotation Framework (OLAF) について概説する。
本研究の目的は,ソフトウェア工学研究において,より透過的で再現可能なLCMベースのアノテーションに向けた方法論的議論と今後の実証研究を動機付けることである。
関連論文リスト
- Exploratory Semantic Reliability Analysis of Wind Turbine Maintenance Logs using Large Language Models [0.0]
本稿では、より複雑な推論タスクに現代大規模言語モデル(LLM)を活用する際のギャップについて論じる。
我々は,LLMを用いた探索的フレームワークを導入し,分類を超えて意味分析を行う。
以上の結果から,LSMは,テキスト情報や行動可能な専門家レベルの仮説を合成するためにラベル付けを超えて,強力な"信頼性共パイロット"として機能できることが示唆された。
論文 参考訳(メタデータ) (2025-09-26T14:00:20Z) - Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models [0.8193467416247519]
トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
論文 参考訳(メタデータ) (2025-09-08T18:46:08Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。