論文の概要: A Comparison of Conversational Models and Humans in Answering Technical Questions: the Firefox Case
- arxiv url: http://arxiv.org/abs/2510.21933v1
- Date: Fri, 24 Oct 2025 18:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.705503
- Title: A Comparison of Conversational Models and Humans in Answering Technical Questions: the Firefox Case
- Title(参考訳): 技術的疑問に答える会話モデルと人間の比較:Firefoxの場合
- Authors: Joao Correia, Daniel Coutinho, Marco Castelluccio, Caio Barbosa, Rafael de Mello, Anita Sarma, Alessandro Garcia, Marco Gerosa, Igor Steinmacher,
- Abstract要約: 本研究では,Mozilla Firefoxプロジェクトの開発者を支援するRetrieval-Augmented Generationの有効性を評価する。
我々は、人間開発者からの反応、標準GPTモデル、RAGで強化されたGPTモデルを比較した経験的分析を行った。
その結果、RAGベースのツールをオープンソースソフトウェアに適用して、回答の品質を損なうことなく、コアメンテナの負荷を最小限に抑える可能性が示された。
- 参考スコア(独自算出の注目度): 41.39414744243529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of Large Language Models (LLMs) to support tasks in software development has steadily increased over recent years. From assisting developers in coding activities to providing conversational agents that answer newcomers' questions. In collaboration with the Mozilla Foundation, this study evaluates the effectiveness of Retrieval-Augmented Generation (RAG) in assisting developers within the Mozilla Firefox project. We conducted an empirical analysis comparing responses from human developers, a standard GPT model, and a GPT model enhanced with RAG, using real queries from Mozilla's developer chat rooms. To ensure a rigorous evaluation, Mozilla experts assessed the responses based on helpfulness, comprehensiveness, and conciseness. The results show that RAG-assisted responses were more comprehensive than human developers (62.50% to 54.17%) and almost as helpful (75.00% to 79.17%), suggesting RAG's potential to enhance developer assistance. However, the RAG responses were not as concise and often verbose. The results show the potential to apply RAG-based tools to Open Source Software (OSS) to minimize the load to core maintainers without losing answer quality. Toning down retrieval mechanisms and making responses even shorter in the future would enhance developer assistance in massive projects like Mozilla Firefox.
- Abstract(参考訳): ソフトウェア開発におけるタスクをサポートするためにLLM(Large Language Models)を使用することは、近年着実に増加している。
コーディング活動の開発者の支援から、初心者の質問に答える会話エージェントの提供まで。
この研究はMozilla Foundationと共同で、Mozilla Firefoxプロジェクト内の開発者を支援するために、Retrieval-Augmented Generation(RAG)の有効性を評価した。
我々は、Mozillaの開発者チャットルームからの実際の問い合わせを用いて、人間開発者からの回答、標準GPTモデル、RAGで強化されたGPTモデルの比較実験を行った。
厳格な評価を確保するため、Mozillaの専門家は、有用性、包括性、簡潔性に基づいて応答を評価した。
その結果、RAGによる反応は人間の開発者(62.50%から54.17%)よりも包括的であり、ほぼ同程度(75.00%から79.17%)であり、RAGが開発者の援助を強化する可能性を示している。
しかし、RAG応答は簡潔ではなく、しばしば冗長であった。
その結果、ROGベースのツールをオープンソースソフトウェア(OSS)に適用して、回答の品質を損なうことなく、コアメンテナの負荷を最小限に抑える可能性が示された。
将来、検索メカニズムの縮小とレスポンスの短縮により、Mozilla Firefoxのような巨大なプロジェクトにおける開発者の支援が強化される。
関連論文リスト
- EvolveSearch: An Iterative Self-Evolving Search Agent [98.18686493123785]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。
本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:50:48Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Assessing the Answerability of Queries in Retrieval-Augmented Code Generation [7.68409881755304]
本研究は,有効な回答が生成できるかどうかを評価するための課題を提案する。
我々は、Retrieval-augmented Code Generability Evaluation (RaCGEval)と呼ばれるベンチマークデータセットを構築し、このタスクを実行するモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-11-08T13:09:14Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study [45.69867169347836]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)の幻覚を、外部知識の統合によって緩和するための効果的なアプローチである。
本稿では,多様な領域にまたがる構造化知識と非構造化知識を組み合わせたベンチマークデータセットを標準化する。
また,マルチグラニュラリティプルーニング戦略を主特徴とする,プラグアンドプレイのRAGフレームワークである textbfPruningRAG も開発している。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop [44.51779041553597]
大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む、日常的で反復的なタスクに応用されている。
我々は、従業員の質問に対処するための効率的かつ効果的なツールとして、人事支援チャットボットを開発した。
実験と評価の結果,GPT-4は他のモデルよりも優れており,データの矛盾を克服できることがわかった。
専門家分析により、G-Evalなどの基準フリー評価指標を推定し、信頼性が人間の評価と密接に一致していることを示す。
論文 参考訳(メタデータ) (2024-07-08T13:32:14Z) - StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation [2.225268436173329]
StackRAGは,大規模言語モデルに基づく検索拡張マルチエージェント生成ツールである。
SOからの知識を集約して、生成された回答の信頼性を高める、という2つの世界を組み合わせています。
最初の評価は、生成された回答が正確で正確で、関連があり、有用であることを示している。
論文 参考訳(メタデータ) (2024-06-19T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。