論文の概要: LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding
- arxiv url: http://arxiv.org/abs/2604.27727v1
- Date: Thu, 30 Apr 2026 11:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.06242
- Title: LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding
- Title(参考訳): LLM-as-a-Judge for Human-AI Co-Creation: A Reliability-Aware Evaluation Framework for Coding
- Authors: Md Faizul Ibne Amin, Yutaka Watanobe, Daniel M. Muepu, Haruto Suzuki, Kenta Nanaumi, Md Mostafizer Rahman,
- Abstract要約: rubric-driven LLM-as-a-Judge frameworkは、コンテストスタイルの人間-AI共同制作のためのフレームワークである。
共同創造の成功は早期に集中していることが判明し、サクセス・アット・トゥルンは初めて観測されたターンで0.8533まで上昇した。
判定側では、ROC-AUCは0.5937、PR-AUCは0.6904、MCCテストは0.5000に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly employed both as judges for evaluating open-ended outputs and as co-creation partners in AI-assisted programming; yet rigorous evaluation in human-AI co-creation settings remains underdeveloped as judgments must be reliable, comparable across models, and interpretable over multi-turn interaction. To address this gap, a rubric-driven LLM-as-a-Judge framework is presented for contest-style human-AI co-creation in coding and software engineering (SE). The framework is built around schema-constrained judge outputs, validation and repair mechanisms, grouped and split by user and problem to prevent trajectory leakage, and participant-level NONBLIND context. Multiple LLM judges are assessed through a multi-metric protocol covering discrimination (ROC-AUC, PR-AUC), thresholded decision quality (MCC), probabilistic reliability (LogLoss, Brier score, ECE), and inter-judge agreement (Cohen's and Fleiss' k). Human-AI co-creation is further examined through trajectory-level signals, including turn-wise confidence, Success-at-Turn, time-to-success, revision churn, and CodeBLEU. Co-creation success is found to concentrate early, with Success-at-Turn rising to 0.8533 at the first observed turn and stabilizing at 0.8641 by turn 6. Revision behavior, however, remains heterogeneous, suggesting that productive progress can emerge through either incremental refinement or broader restructuring. On the judging side, the best held-out scores reach 0.5937 for ROC-AUC, 0.6904 for PR-AUC, and 0.5000 for MCC test, while inter-judge consistency remains modest overall (mean pairwise Cohen's k = 0.1592, Fleiss' k = 0.0696). Taken together, this work offers an auditable and reproducible evaluation methodology that links reliability-aware LLM judging with trajectory-based analysis of human-AI co-creation, providing a practical evaluation template for future AI-assisted coding and SE.
- Abstract(参考訳): LLMは、オープンエンドのアウトプットを評価するための審査員や、AI支援プログラミングにおける共同作成パートナとして採用されているが、人間とAIのコクリエーション設定における厳密な評価は、モデル間での信頼性、マルチターンインタラクションよりも解釈可能な判断が必要であるため、未開発のままである。
このギャップに対処するために、コーディングとソフトウェア工学(SE)におけるコンテストスタイルの人間-AI共創のために、ルーリック駆動のLLM-as-a-Judgeフレームワークが提示される。
このフレームワークは、スキーマに制約された判断出力、検証と修復のメカニズム、ユーザのグループ化と分割によるトラジェクトリの漏洩防止、および参加者レベルのNONBLINDコンテキストを中心に構築されている。
複数のLCM判事は、差別をカバーするマルチメトリックプロトコル(ROC-AUC, PR-AUC)、しきい値決定品質(MCC)、確率的信頼性(LogLoss, Brier score, ECE)、およびジャッジ間合意(Cohen's and Fleiss' k)を通じて評価される。
人間-AIの共創は、ターンワイド信頼、成功-アット-トゥーン、タイム・トゥ・サクセス、リビジョン・チャーン、CodeBLEUなど、軌道レベルの信号によってさらに検討される。
共同創造の成功は早期に集中し、最初の観測では0.8533まで上昇し、ターン6では0.8641に安定化した。
しかし、リビジョンの行動は相変わらず不均一であり、漸進的な洗練またはより広範なリストラクチャリングによって生産的な進歩が生じる可能性があることを示唆している。
判定側では、ROC-AUCは0.5937点、PR-AUCは0.6904点、MCCテストは0.5000点である。
この研究は、人間とAIの共創の軌跡に基づく分析から判断し、信頼性を意識したLLMをリンクする監査可能な再現可能な評価手法を提供し、将来のAI支援コーディングのための実用的な評価テンプレートとSEを提供する。
関連論文リスト
- Are we still able to recognize pearls? Machine-driven peer review and the risk to creativity: An explainable RAG-XAI detection framework with markers extraction [7.723181091241251]
本稿では、レビュー品質を評価し、自動パターンを検出するための説明可能なフレームワーク(RAG-XAI)を提案する。
XGBoost、Random Forest、LightGBMは99.61%、AUC-ROCは0.999以上、F1スコアは0.9925である。
論文 参考訳(メタデータ) (2026-04-09T08:25:49Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文 参考訳(メタデータ) (2025-12-03T21:02:54Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。