論文の概要: From Threads to Trajectories: A Multi-LLM Pipeline for Community Knowledge Extraction from GitHub Issue Discussions
- arxiv url: http://arxiv.org/abs/2604.25880v1
- Date: Tue, 28 Apr 2026 17:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.972931
- Title: From Threads to Trajectories: A Multi-LLM Pipeline for Community Knowledge Extraction from GitHub Issue Discussions
- Title(参考訳): スレッドからトラジェクトリへ:GitHubのイシューディスカッションからコミュニティ知識抽出のためのマルチLLMパイプライン
- Authors: Nazia Shehnaz Joynab, Soneya Binta Hossain,
- Abstract要約: SWE-MIMIC-Benchは生のGitHubディスカッションから生成された課題トラジェクトリデータセットである。
単純な要約とは異なり、このパイプラインはクローズドソース LLM のグループを使用して、きめ細かいタスクを実行する。
我々は,SWE-Bench-Pro,SWE-Bench-Multilingual,SWE-Bench-Verifiedデータセットから抽出した実世界のGitHub問題800件について評価を行った。
- 参考スコア(独自算出の注目度): 5.590965631053725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Resolution of complex post-production issues in large-scale open-source software (OSS) projects requires significant cognitive effort, as developers need to go through long, unstructured and fragmented issue discussion threads before that. In this paper, we present SWE-MIMIC-Bench, an issue trajectory dataset generated from raw GitHub discussions using an automated multi-LLM pipeline. Unlike simple summarization, this pipeline utilizes a group of closed-source LLMs to perform granular tasks: analyzing individual comments with awareness of externally-linked resources, classifying comment analyses into label-specific fields (e.g., root cause, solution plan, implementation progress), and synthesizing label-aware trajectories which capture a structured and coherent narrative of the entire discussion thread. Our pipeline uses five closed-source LLM configurations for distinct purposes: label classification, inline code block and external link summarization, comment analysis, label-specific field classification and trajectory synthesis. By generating concise and reliable trajectories from complex conversation threads, this system can assist developers and researchers of broader software engineering community to understand the experience-driven collaborative approach for issue diagnosis. Furthermore, the generated trajectories can be used to train modern LLM agents to think and act like an expert developer. We evaluated our system on 800 real-world GitHub issues drawn from the SWE-Bench-Pro, SWE-Bench-Multilingual and SWE-Bench-Verified dataset, achieving a 91.7% success rate in extracting 734 high-fidelity reasoning trajectories.
- Abstract(参考訳): 大規模なオープンソースソフトウェア(OSS)プロジェクトでの複雑なポストプロダクション問題の解決には、開発者が前に長く、構造化されていない、断片化された問題議論スレッドを通らなければならないため、かなりの認知的努力が必要である。
本稿では,GitHubの議論から自動マルチLLMパイプラインを用いて生成した課題トラジェクトリデータセットであるSWE-MIMIC-Benchを提案する。
単純な要約とは異なり、このパイプラインは、個別のコメントを外部リンクされたリソースの認識で分析し、コメント分析をラベル固有の分野(例えば、根本原因、ソリューション計画、実装の進捗)に分類し、議論スレッド全体の構造化された一貫性のある物語をキャプチャするラベル対応の軌跡を合成する。
パイプラインは,ラベル分類,インラインコードブロック,外部リンク要約,コメント解析,ラベル固有のフィールド分類,軌道合成の5つの異なる目的のために,クローズドソースLLM構成を使用する。
複雑な会話スレッドから簡潔で信頼性の高い軌跡を生成することにより、より広いソフトウェアエンジニアリングコミュニティの開発者や研究者が、問題診断のためのエクスペリエンス駆動協調アプローチを理解するのを支援することができる。
さらに、生成された軌道は、現代のLSMエージェントを専門家の開発者のように考え、振舞うように訓練するために使用することができる。
我々は、SWE-Bench-Pro、SWE-Bench-Multilingual、SWE-Bench-Verifiedデータセットから引き出された800の現実世界のGitHub問題に対して、システムを評価した。
関連論文リスト
- LLM-Augmented Release Intelligence: Automated Change Summarization and Impact Analysis in Cloud-Native CI/CD Pipelines [0.0]
クラウドネイティブなソフトウェアデリバリプラットフォームは、数十の独立したバージョン管理タスクで構成される複雑なマルチステージパイプラインを通じて、リリースをオーケストレーションする。
このようなリリースコミュニケーションのマニュアル準備は遅く、一貫性がなく、特にリポジトリではエラーが発生します。
1) 自動コミット収集とセマンティックフィルタリングを併用して,定期的なメンテナンスを抑えながら実体的変化を表面化する,(2) 階層化された大規模言語モデル要約による分類,利害関係者指向のプロモーションレポートの生成,(3) 修正タスクを参加者が参加するパイプライン毎にマップする静的タスク-パイプライン依存性分析, そして各変更のブラスト半径を定量化する,という3つの機能を組み合わせたAI強化リリースインテリジェンスのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-15T21:30:52Z) - RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks [10.106518618464888]
SWE-Hubは、データファクトリの抽象化を運用するエンドツーエンドシステムである。
環境の自動化、スケーラブルな合成、多様なタスク生成をコヒーレントなプロダクションスタックに統合する。
論文 参考訳(メタデータ) (2026-02-28T09:53:48Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。