論文の概要: Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study
- arxiv url: http://arxiv.org/abs/2605.23108v1
- Date: Thu, 21 May 2026 23:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.13673
- Title: Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study
- Title(参考訳): AIによるコードレビューのための行動制約としての哲学的配置:実証的研究
- Authors: Kaushal Bansal,
- Abstract要約: 哲学的な配置を通してAIレビュアーの行動を制限するシステムを提案する。
それぞれの分布は(それがすることを拒否して)好意的に定義される
5つのプログラミング言語にまたがる7つのレポジトリ間で50のプルリクエストをマージしたシステムの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-assisted code review tools typically operate as generic "expert reviewer" agents, producing homogeneous findings regardless of the analysis type needed. We present a system that constrains AI reviewer behavior through philosophical dispositions -- coherent personality lenses grounded in specific epistemological traditions (Pyrrhonist Skepticism, Navya-Ny=aya logic, Diogenes' Cynicism, Confucian relational ethics) that direct attention to structurally different types of issues. Each disposition is defined apophatically (by what it refuses to do), equipped with a self-monitoring failure mode (hamartia), and orchestrated in sequence by role protocols. We evaluate this system on 50 merged pull requests across 7 repositories spanning 5 programming languages (Python, Go, C++, Java, Terraform), 5 organizations (2 enterprise, 3 open-source), and 2 temporal eras (pre-AI 2020, post-AI 2024--2026). The disposition system achieves 46% convergence with human reviewers (validating signal quality), identifies unique findings at a 75% rate, and produces no findings judged false-positive by the author across 601 total findings (inter-rater agreement was not assessed and remains a limitation). A controlled baseline comparison demonstrates that 51% of disposition findings are not produced by the same model using generic "expert reviewer" prompting, and these unique findings target structural, operational, and logical concerns rather than standard code-level issues. Preliminary cross-model validation (Claude Opus vs.\ GPT Codex 5.3-xhigh) on 3 PRs shows 100% framework-structure adherence with 39% finding-level agreement, suggesting the framework provides real behavioral constraint while preserving model-specific analytical perspective.
- Abstract(参考訳): AI支援のコードレビューツールは一般的に汎用的な"専門家レビュー"エージェントとして動作し、分析タイプに関係なく均一な発見を生成する。
哲学的配置を通してAIレビュアーの行動を制限するシステム - 特定の認識論的伝統に根ざしたコヒーレントなパーソナリティレンズ(Pyrrhonist Skepticism, Navya-Ny=aya logic, Diogenes' Cynicism, 儒教的リレーショナル倫理)は、構造的に異なる問題に注意を向ける。
それぞれの配置は(実行を拒否するものによって)アポパティカルに定義され、自己監視障害モード (hamartia) を備え、ロールプロトコルによって順序付けされる。
このシステムは,5つのプログラミング言語(Python, Go, C++, Java, Terraform),5つの組織(エンタープライズ, 3つのオープンソース),2つの時間的時代(AI 2020前,2024年-2026年)にまたがる7つのリポジトリにまたがる50のプルリクエストで評価する。
配位システムは、ヒトレビュアーと46%の収束(信号品質の検証)を達成し、75%の速度で特異な発見を識別し、601件の総結果に対して著者が誤陽性と判断した所見は生成しない(レータ間合意は評価されず、制限のままである)。
制御されたベースライン比較では、配置結果の51%は、ジェネリックな"エキスパートレビュアー"プロンプトを使って同じモデルで生成されていないことが示されており、これらのユニークな発見は、標準のコードレベル問題よりも構造的、運用的、論理的問題をターゲットにしている。
予備的クロスモデル検証 (Claude Opus vs.
3 PR上の GPT コーデックス 5.3-xhigh) は、100% のフレームワーク構造が 39% の発見レベルの合意に従っていることを示している。
関連論文リスト
- The Productivity-Reliability Paradox: Specification-Driven Governance for AI-Augmented Software Development [0.0]
コントロールされた研究によると、よくスコープされたタスクで生産性が20~56%向上し、最も厳格なRCT文書は経験豊富な開発者にとって19%の減速を報告している。
10,000人以上の開発者を対象としたテレメトリでは、プルリクエストが98%増加したが、フラットなデリバリメトリクスによるレビュー時間が91%長かった。
本稿では,非決定論的コードジェネレータから生じる系統的な現象と,仕様の不十分な規律であるProductivity-Reliability Paradox(PRP)について論じる。
論文 参考訳(メタデータ) (2026-05-01T23:37:50Z) - Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework [0.0]
我々は、AIが構造的に完成しているかどうかを評価するためのフレームワークを導入する。
評価の結果,評価されたファイルモデルペアの37%がしきい値以下であることが判明した。
本稿では,AI支援開発における工学的要件の実践の意義について論じる。
論文 参考訳(メタデータ) (2026-04-22T21:18:28Z) - AIRA: AI-Induced Risk Audit: A Structured Inspection Framework for AI-Generated Code [0.0]
AIによって生成されたコードは、静かに失敗する傾向がある。
本稿では,このパターンが人間のフィードバックによる最適化の成果を反映するかもしれないという仮説を,Reward-Shaped Failure hypothesisで紹介する。
AIRAは、コード内の失敗不確実なパターンを検出するために設計された決定論的15チェック検査フレームワークである。
論文 参考訳(メタデータ) (2026-04-19T19:32:52Z) - Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits [3.9532936038777144]
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
論文 参考訳(メタデータ) (2026-03-29T15:56:05Z) - Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。