論文の概要: How do Humans and LLMs Process Confusing Code?
- arxiv url: http://arxiv.org/abs/2508.18547v1
- Date: Mon, 25 Aug 2025 22:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.6209
- Title: How do Humans and LLMs Process Confusing Code?
- Title(参考訳): 人間とLLMはどのようにコードを混同するか?
- Authors: Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva, Sven Apel,
- Abstract要約: プログラミングアシスタント(LLM)とプログラマがコードを理解する方法の相違は、誤解や非効率性、コード品質の低下、バグにつながる可能性がある。
クリーンで紛らわしいコードを解釈し,LLMを人間プログラマと比較した実証的研究を行った。
LLMの急激なスパイクは、場所と振幅の両方において、混乱を示す人間の神経生理学的反応と相関していることがわかった。
- 参考スコア(独自算出の注目度): 10.975229558223964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Already today, humans and programming assistants based on large language models (LLMs) collaborate in everyday programming tasks. Clearly, a misalignment between how LLMs and programmers comprehend code can lead to misunderstandings, inefficiencies, low code quality, and bugs. A key question in this space is whether humans and LLMs are confused by the same kind of code. This would not only guide our choices of integrating LLMs in software engineering workflows, but also inform about possible improvements of LLMs. To this end, we conducted an empirical study comparing an LLM to human programmers comprehending clean and confusing code. We operationalized comprehension for the LLM by using LLM perplexity, and for human programmers using neurophysiological responses (in particular, EEG-based fixation-related potentials). We found that LLM perplexity spikes correlate both in terms of location and amplitude with human neurophysiological responses that indicate confusion. This result suggests that LLMs and humans are similarly confused about the code. Based on these findings, we devised a data-driven, LLM-based approach to identify regions of confusion in code that elicit confusion in human programmers.
- Abstract(参考訳): 現在、人間とプログラミングアシスタントは、大規模な言語モデル(LLM)に基づいた日々のプログラミングタスクで協力しています。
明らかに、LLMとプログラマがコードを理解する方法の相違は誤解、非効率性、コード品質の低下、バグにつながる可能性がある。
この領域で重要な問題は、人間とLLMが同じ種類のコードで混同されているかどうかである。
これは、ソフトウェアエンジニアリングワークフローにLLMを統合するという私たちの選択を導くだけでなく、LLMの改善の可能性についても知らせてくれるでしょう。
この目的のために、クリーンで紛らわしいコードを解釈する人間プログラマとLLMを比較した実証的研究を行った。
神経生理学的反応(特に脳波による固定関連電位)を用いた人間のプログラマに対しては,LSMのパープレキシティを用いて,LSMの理解を操作した。
LLMの急激なスパイクは、場所と振幅の両方において、混乱を示す人間の神経生理学的反応と相関していることがわかった。
この結果は、LLMと人間も同様にコードについて混乱していることを示唆している。
これらの知見に基づいて,人間のプログラマに混乱をもたらすコード内の混乱領域を特定するために,データ駆動型LLMベースのアプローチを開発した。
関連論文リスト
- How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - Do Large Language Models Mirror Cognitive Language Processing? [43.68923267228057]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
脳認知処理信号は、典型的には人間の言語処理を研究するために使用される。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。
手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-06-02T00:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。