論文の概要: Tricky$^2$: Towards a Benchmark for Evaluating Human and LLM Error Interactions
- arxiv url: http://arxiv.org/abs/2601.18949v1
- Date: Mon, 26 Jan 2026 20:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.064341
- Title: Tricky$^2$: Towards a Benchmark for Evaluating Human and LLM Error Interactions
- Title(参考訳): Tricky$^2$:人間とLLMの相互作用評価のためのベンチマークに向けて
- Authors: Cole Granger, Dipin Khati, Daniel Rodriguez-Cardenas, Denys Poshyvanyk,
- Abstract要約: Tricky$2$は、GPT-5プログラムとOpenAI-oss-20bプログラムの両方で注入されたエラーで、既存のTickyBugsコーパスを人書きの欠陥で強化するハイブリッドデータセットである。
提案手法では,ヒトの欠陥やプログラム構造を保存しながら,分類誘導型プロンプトフレームワークを用いて機械操作によるバグを発生させる。
得られたコーパスは、人間のみ、LLMのみ、および人間+LLM分割にまたがり、混在するエラー挙動、複数バグの修復、ハイブリッドなヒューマンマシンコードの信頼性の分析を可能にする。
- 参考スコア(独自算出の注目度): 11.687400527666476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly integrated into software development workflows, yet they often introduce subtle logic or data-misuse errors that differ from human bugs. To study how these two error types interact, we construct Tricky$^2$, a hybrid dataset that augments the existing TrickyBugs corpus of human-written defects with errors injected by both GPT-5 and OpenAI-oss-20b across C++, Python, and Java programs. Our approach uses a taxonomy-guided prompting framework to generate machine-originated bugs while preserving original human defects and program structure. The resulting corpus spans human-only, LLM-only, and human+LLM splits, enabling analysis of mixed-origin error behavior, multi-bug repair robustness, and reliability in hybrid human-machine code. This paper outlines the dataset construction pipeline and illustrates its use through small-scale baseline evaluations of classification, localization, and repair tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発ワークフローにますます統合されているが、人間のバグとは異なる微妙なロジックやデータミスエラーをしばしば導入している。
このデータセットは、GPT-5とOpenAI-oss-20bの両方のエラーをC++、Python、Javaプログラムに注入して、既存のTickyBugsコーパスを拡張します。
提案手法では,ヒトの欠陥やプログラム構造を保存しながら,分類誘導型プロンプトフレームワークを用いて機械操作によるバグを発生させる。
得られたコーパスは、人間のみ、LLMのみ、および人間+LLM分割にまたがり、混合オリジンエラー挙動、複数バグ修復の堅牢性、ハイブリッドヒューマンマシンコードの信頼性の分析を可能にする。
本稿では,データセット構築パイプラインの概要と,分類,ローカライゼーション,修復作業の小規模なベースライン評価を通じて,その利用について述べる。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.649540541957527]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。
本研究では,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
結果は、モデルの小さなサブセットだけが一貫して正しい実行可能なコードを生成することを示している。
論文 参考訳(メタデータ) (2025-07-30T13:11:29Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [7.503636246307676]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。