論文の概要: On the Reliability of Code Comprehension Proxies
- arxiv url: http://arxiv.org/abs/2605.23008v1
- Date: Thu, 21 May 2026 20:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.088258
- Title: On the Reliability of Code Comprehension Proxies
- Title(参考訳): コード理解プロキシの信頼性について
- Authors: Erfan Arvan, Nadeeshan De Silva, Oscar Chaparro, Martin Kellogg,
- Abstract要約: 本稿では, 現存する文献に共通するプロキシの集合の相対的信頼性を, 人間の一対の研究で検証する。
まず,5人のプロソフトウェアエンジニアのパネルで専門家・コンセンサス研究を行い,8つのコードスニペットの真真正性ランキングを確立した。
第2に,課題を完了した44名の学生を対象に,論文から得られた14の理解プロキシを8つのコードスニペットのセットで測定した。
- 参考スコア(独自算出の注目度): 5.249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on code comprehension uses different comprehension proxies-for example, Likert-scale ratings or answers to input-output questions about program snippets, usually collected from students, to approximate whether code is comprehensible to software engineers, but the relative reliability of these proxies is not known. This paper investigates the relative reliability of a collection of proxies common in the extant literature with a pair of human studies. First, we conducted an expert-consensus study with a panel of five professional software engineers to establish a ground-truth comprehensibility ranking of eight code snippets by adapting the Delphi expert-consensus protocol. The Delphi protocol is widely used for expert consensus under conditions of uncertainty in other domains, such as medicine and national-security forecasting, but to our knowledge, this is its first application in software engineering. Second, we conducted a study with 44 student participants who completed tasks, allowing us to measure 14 comprehension proxies derived from the literature on the same set of eight code snippets. Finally, we conducted a correlation analysis on the results, concluding that proxies 1) derived from input-output questions and 2) that measure response time rather than accuracy are especially reliable. We also found that proxies derived from questions about program syntax (rather than semantics) are especially unreliable, regardless of measurement strategy, which draws into question the reliability of parts of the existing comprehensibility literature.
- Abstract(参考訳): プログラムスニペットに関するインプットアウトプット質問(通常は学生が収集する)に対して、コードがソフトウェアエンジニアにとって理解しやすいかどうかを近似するために、コード理解に関する以前の研究は、様々な理解プロキシを使用するが、これらのプロキシの相対的な信頼性は分かっていない。
本稿では, 現存する文献に共通するプロキシの集合の相対的信頼性を, 人間の一対の研究で検証する。
まず,Delphiのエキスパート・コンセンサスプロトコルを適用することで,5人のプロソフトウェアエンジニアによる専門家・コンセンサス研究を行い,8つのコードスニペットの真真正理解度ランキングを確立した。
Delphiプロトコルは、医学や国家安全保障予測といった他の領域における不確実性の条件下で、専門家による合意のために広く使用されているが、私たちの知る限り、これがソフトウェア工学における最初の応用である。
第2に,課題を完了した44名の学生を対象に,論文から得られた14の理解プロキシを8つのコードスニペットのセットで測定した。
最後に, 結果の相関分析を行い, プロキシについて結論づけた。
1)入力出力質問から派生した
2) 精度よりも応答時間を計測する手法は特に信頼性が高い。
また,プログラムの構文に関する質問(意味論ではなく)から派生したプロキシは,既存の理解可能性文献の信頼性に疑問を呈する計測戦略によらず,特に信頼性が低いことがわかった。
関連論文リスト
- What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code [72.9921566968371]
ドメイン分離のきめ細かい10T-tokenコーパスにおける事前学習の制御実験により,コードが推論を改善するという主張を再考する。
コードはプログラミング能力を大幅に改善するが、一般的な推論エンハンサーとして機能しない。
コード-テキストと数学-テキストの混合のようなドメイン間構造的推論トレースがよりうまく説明されている。
論文 参考訳(メタデータ) (2026-05-19T12:37:01Z) - MACAA: Belief-Revision Multi-Agent Reasoning for Code Authorship Verification [8.089784374872744]
トレーニング不要なコードオーサシップ検証のための信念修正に基づくフレームワークであるMACAAを提案する。
MACAAはコーディネーターと4人の専門家エージェントで構成され、レイアウト、語彙、構文、プログラミングパターンのエビデンスを分析している。
MACAAは、同言語ベンチマークで89.15%のF1、混在する言語ペアで80.00%を達成し、同言語と言語間の評価で全体のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-10T08:47:05Z) - AcademiClaw: When Students Set Challenges for AI Agents [69.70303995121154]
AcademiClaw(アカデミクロー)は、大学生の実際の学術的切断から直接引き出された80の複雑な長い水平タスクのベンチマークである。
最高のモデルでさえ、55%のパスレートしか達成できないことを示す。
AcademiClawとそのオープンソースデータとコードが、OpenClawコミュニティにとって有用なリソースになることを願っています。
論文 参考訳(メタデータ) (2026-05-04T14:40:42Z) - Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems [1.0705399532413615]
本稿では,プログラミング教育における会話アセスメントアプローチの飽和に基づくスコーピングレビューについて報告する。
このレビューでは、ルールベースまたはテンプレート駆動システム、LLMベースのシステム、ハイブリッドシステムの3つの主要なアーキテクチャファミリを特定している。
本稿では,これらの知見を,対話型検証を自動プログラミングアセスメントシステムに統合するハイブリッドソクラティックフレームワークに合成する。
論文 参考訳(メタデータ) (2026-04-08T17:11:30Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - The Failure of Plagiarism Detection in Competitive Programming [0.0]
プログラミングコースにおけるプラジャリズムは依然として永続的な課題である。
本稿では,従来のコードプラジャリズム検出手法が競合プログラミングの文脈で頻繁に失敗する理由について考察する。
広く使われている自動類似性チェッカーは、単純なコード変換や、新しいAI生成コードによって妨げられる。
論文 参考訳(メタデータ) (2025-05-13T05:43:49Z) - SILENT: A New Lens on Statistics in Software Timing Side Channels [10.872605368135343]
最近の攻撃は、コードが最新のCPU上で一定の時間で実行できることの意味について、私たちの理解に疑問を投げかけています。
本稿では,統計的確証が強いタイミング測定を解析するための新しいアルゴリズムを提案する。
合成ベンチマークと実世界のアプリケーションの両方において、我々のアプローチの必要性、有効性、利点を実証する。
論文 参考訳(メタデータ) (2025-04-28T14:22:23Z) - A Computational Method for Measuring "Open Codes" in Qualitative Analysis [44.39424825305388]
本稿では,人間と生成AI(GAI)による帰納的符号化結果を測定するための理論インフォームド計算手法を提案する。
これは、各コーダのコントリビューションを、Coverage、Overlap、Noverety、Divergenceの4つの新しいメトリクスを使用して、マージした結果に対して測定する。
本研究は,人間とAIの質的分析における方法論的厳密性を確保するための信頼性の高い経路を提供する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - Principled Bayesian Optimisation in Collaboration with Human Experts [23.988732776208053]
専門家がバイナリ・アセプション/リジェクト・レコメンデーション(ラベル)を通じてアドバイスを提供するセットアップを検討する。
専門家のラベルは費用がかかることが多く、その努力を効率的に利用する必要がある。
2つの重要な保証を提供する、最初の原則付きアプローチを導入します。
論文 参考訳(メタデータ) (2024-10-14T12:46:02Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。