論文の概要: Automatically Identifying Solution-Related Content in Issue Report Discussions with Language Models
- arxiv url: http://arxiv.org/abs/2511.06501v1
- Date: Sun, 09 Nov 2025 19:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.983534
- Title: Automatically Identifying Solution-Related Content in Issue Report Discussions with Language Models
- Title(参考訳): 言語モデルを用いた解関連コンテンツの自動同定
- Authors: Antu Saha, Mehedi Sun, Oscar Chaparro,
- Abstract要約: ソリューション関連コンテンツの配置は、再オープンされた問題の調査、レグレッションの解決、ソリューションの再利用、コード変更の合理性理解に不可欠である。
本稿では,教師付き分類器として言語モデルを用いた解の同定を行う。
- 参考スコア(独自算出の注目度): 5.752240570184387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During issue resolution, software developers rely on issue reports to discuss solutions for defects, feature requests, and other changes. These discussions contain proposed solutions-from design changes to code implementations-as well as their evaluations. Locating solution-related content is essential for investigating reopened issues, addressing regressions, reusing solutions, and understanding code change rationale. Manually understanding long discussions to identify such content can be difficult and time-consuming. This paper automates solution identification using language models as supervised classifiers. We investigate three applications-embeddings, prompting, and fine-tuning-across three classifier types: traditional ML models (MLMs), pre-trained language models (PLMs), and large language models (LLMs). Using 356 Mozilla Firefox issues, we created a dataset to train and evaluate six MLMs, four PLMs, and two LLMs across 68 configurations. Results show that MLMs with LLM embeddings outperform TF-IDF features, prompting underperforms, and fine-tuned LLMs achieve the highest performance, with LLAMAft reaching 0.716 F1 score. Ensembles of the best models further improve results (0.737 F1). Misclassifications often arise from misleading clues or missing context, highlighting the need for context-aware classifiers. Models trained on Mozilla transfer to other projects, with a small amount of project-specific data, further enhancing results. This work supports software maintenance, issue understanding, and solution reuse.
- Abstract(参考訳): 問題解決の間、ソフトウェア開発者は問題レポートに頼り、欠陥や機能要求、その他の変更の解決策について議論する。
これらの議論には、設計変更からコード実装へのソリューションの提案と、それらの評価が含まれる。
ソリューション関連コンテンツの配置は、再オープンされた問題の調査、レグレッションの解決、ソリューションの再利用、コード変更の合理性理解に不可欠である。
このようなコンテンツを特定するための長い議論を手作業で理解することは難しく、時間を要する。
本稿では,教師付き分類器として言語モデルを用いた解の同定を自動化する。
本稿では,従来のMLモデル(MLM),事前学習言語モデル(PLM),大規模言語モデル(LLM)の3種類のアプリケーション埋め込み,プロンプト,微調整を行う。
Mozilla Firefoxの356のイシューを使用して、6つのMLM、4つのPLM、2つのLLMを68構成でトレーニングし、評価するデータセットを作成しました。
その結果,LDMを組み込んだMLMはTF-IDF特性より優れ,性能が低下し,微調整LDMが最高性能を示し,LAMAftは0.716F1に到達した。
最高のモデルの組み立てにより結果がさらに向上する(0.737 F1)。
誤分類は、しばしば誤解を招く手がかりや欠落した文脈から生じ、コンテキスト認識の分類器の必要性を強調している。
Mozillaでトレーニングされたモデルは、少量のプロジェクト固有のデータで他のプロジェクトへ移行し、その結果をさらに強化する。
この作業は、ソフトウェアのメンテナンス、問題理解、ソリューション再利用をサポートする。
関連論文リスト
- A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。