Fugu-MT 論文翻訳(概要): Accountability in Code Review: The Role of Intrinsic Drivers and the Impact of LLMs

論文の概要: Accountability in Code Review: The Role of Intrinsic Drivers and the Impact of LLMs

arxiv url: http://arxiv.org/abs/2502.15963v1
Date: Fri, 21 Feb 2025 21:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.907012
Title: Accountability in Code Review: The Role of Intrinsic Drivers and the Impact of LLMs
Title（参考訳）: コードレビューにおける説明責任: 内在的ドライバの役割とLLMの影響
Authors: Adam Alami, Victor Vadmand Jensen, Neil A. Ernst,
Abstract要約: コード品質に対する説明責任の主要な原動力は、個人的標準、専門的完全性、コード品質の誇り、評価の維持である。ソフトウェア工学へのAIの導入は、社会的整合性と集団的説明責任メカニズムを維持する必要がある。
参考スコア（独自算出の注目度）: 6.841710924733614
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accountability is an innate part of social systems. It maintains stability and ensures positive pressure on individuals' decision-making. As actors in a social system, software developers are accountable to their team and organization for their decisions. However, the drivers of accountability and how it changes behavior in software development are less understood. In this study, we look at how the social aspects of code review affect software engineers' sense of accountability for code quality. Since software engineering (SE) is increasingly involving Large Language Models (LLM) assistance, we also evaluate the impact on accountability when introducing LLM-assisted code reviews. We carried out a two-phased sequential qualitative study (interviews -> focus groups). In Phase I (16 interviews), we sought to investigate the intrinsic drivers of software engineers influencing their sense of accountability for code quality, relying on self-reported claims. In Phase II, we tested these traits in a more natural setting by simulating traditional peer-led reviews with focus groups and then LLM-assisted review sessions. We found that there are four key intrinsic drivers of accountability for code quality: personal standards, professional integrity, pride in code quality, and maintaining one's reputation. In a traditional peer-led review, we observed a transition from individual to collective accountability when code reviews are initiated. We also found that the introduction of LLM-assisted reviews disrupts this accountability process, challenging the reciprocity of accountability taking place in peer-led evaluations, i.e., one cannot be accountable to an LLM. Our findings imply that the introduction of AI into SE must preserve social integrity and collective accountability mechanisms.
Abstract（参考訳）: アカウンタビリティは、社会システムの本質的な部分である。安定性を維持し、個人の意思決定に肯定的な圧力を与える。ソーシャルシステムのアクターとして、ソフトウェア開発者はチームや組織に意思決定の責任を負う。しかし、説明責任の要因と、それがソフトウェア開発の振る舞いをどのように変えるかは理解されていない。本研究では,コードレビューの社会的側面が,ソフトウェア技術者のコード品質に対する説明責任感にどのように影響するかを検討する。ソフトウェア工学(SE)は,大規模言語モデル(LLM)の支援をますます取り入れているため,LCM支援コードレビューを導入する際の説明責任への影響も評価する。我々は2段階の連続的質的研究を行った(Interviews -> focus group)。フェーズI(16インタビュー)では,自己報告された主張に頼って,ソフトウェア技術者の本質的なドライバがコード品質に対する説明責任に影響を及ぼすかを調査した。第2フェーズでは、従来のピア主導レビューをフォーカスグループでシミュレートし、LLM支援レビューセッションをシミュレーションすることで、これらの特性をより自然な環境でテストした。コード品質には、個人的な標準、専門的な整合性、コード品質の誇り、評判の維持という、説明責任に関する4つの重要な本質的な要因があることがわかりました。従来のピア主導レビューでは、コードレビューが開始されたとき、個々の説明責任から集団的説明責任への移行が観察された。また、LCMによるレビューの導入により、この説明責任プロセスが破壊され、ピア主導評価における説明責任の相互性、すなわちLCMに説明責任を負うことができないことへの挑戦も見出した。我々の知見は、AIをSEに導入するには、社会的完全性と集団的説明責任のメカニズムを保たなければならないことを示唆している。

関連論文リスト

Code Review as Decision-Making -- Building a Cognitive Model from the Questions Asked During Code Review [2.8299846354183953]
コードレビューの認知モデルを構築し、翻訳された資料の主題的、統計的、時間的、シーケンシャルな分析を通じてボトムアップする。まず、コンテキストと合理性を確立するための配向フェーズ、次に、レビューの残りの部分を理解し、評価し、計画するための分析フェーズです。
論文参考訳（メタデータ） (2025-07-13T14:04:16Z)
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Are We on the Same Page? Examining Developer Perception Alignment in Open Source Code Reviews [2.66269503676104]
コードレビューは、オープンソースソフトウェア(OSS)開発において重要な側面であり、品質を確保し、コラボレーションを促進する。本研究では,OSSコードレビュープロセスにおける認識,課題,バイアスについて考察し,コントリビュータとメンテナの視点に着目した。
論文参考訳（メタデータ） (2025-04-25T15:03:39Z)
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文参考訳（メタデータ） (2025-04-11T15:41:21Z)
Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文参考訳（メタデータ） (2025-03-12T21:39:38Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Decoding AI Judgment: How LLMs Assess News Credibility and Bias [33.7054351451505]
大規模言語モデル(LLM)は、評価プロセスを含む言語にますます組み込まれています。これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。我々は、専門家評価(NewsGuardとMedia Bias/Fact Check(MBFC))と、制御された実験を通して収集された人間の判断に対する6つのLCMをベンチマークする。
論文参考訳（メタデータ） (2025-02-06T18:52:10Z)
PSSD: Making Large Language Models Self-denial via Human Psyche Structure [5.057375783924452]
本稿では,3つの異なる役割が人間の推論に寄与するように,人間の精神構造を参照し,実装する。大規模な実験では、提案された設計が推論能力を向上するだけでなく、現行のモデルとシームレスに統合できることが示されている。
論文参考訳（メタデータ） (2025-02-03T13:37:21Z)
Human and Machine: How Software Engineers Perceive and Engage with AI-Assisted Code Reviews Compared to Their Peers [4.734450431444635]
本稿では,Large Language Model (LLM) を利用したコードレビューにおいて,ソフトウェアエンジニアがどのように認識し,関与しているかを検討する。コードレビューにおけるエンゲージメントは多次元であり、認知的、感情的、行動的な側面にまたがっていることがわかった。我々の発見は、AIツールがSE社会技術プロセスにどのように影響しているかをより深く理解するのに役立ちます。
論文参考訳（メタデータ） (2025-01-03T20:42:51Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文参考訳（メタデータ） (2024-11-18T09:24:01Z)
INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文参考訳（メタデータ） (2024-06-23T15:55:07Z)
Understanding the Building Blocks of Accountability in Software Engineering [3.521765725717803]
ソフトウェア技術者がチーム内で個々の説明責任を育む要因について検討する。本研究は,ソフトウェア技術者が説明責任を個別に知覚する2つの主要な形態,すなわち制度化と草の根を認識するものである。
論文参考訳（メタデータ） (2024-02-02T21:53:35Z)
How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文参考訳（メタデータ） (2023-12-28T16:51:11Z)
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2023-07-19T01:22:40Z)
The Mind Is a Powerful Place: How Showing Code Comprehensibility Metrics Influences Code Understanding [10.644832702859484]
ソースコードの理解度を示す指標が,ソースコードの理解度を主観的に評価する上で,開発者を悩ませるかどうかを検討する。その結果、理解度測定値の表示値は、開発者のコード理解度評価に大きく、かつ大きなアンカー効果があることがわかった。
論文参考訳（メタデータ） (2020-12-16T14:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。