論文の概要: Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer
- arxiv url: http://arxiv.org/abs/2604.17883v1
- Date: Mon, 20 Apr 2026 06:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.736866
- Title: Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer
- Title(参考訳): オーバナブル・コンセンサス・レイヤを必要とする人間-AI符号化コラボレーションのスケーリング
- Authors: Tianfu Wang, Zhezheng Hao, Yin Wu, Wei Wu, Qiang Lin, Hande Dong, Nicholas Jing Yuan, Hui Xiong,
- Abstract要約: ビブコーディングは正確で実行可能なコードを高速に生成するが、構造的なコミットメントや依存関係、証拠の記録は残っていない。
本稿では,操作可能な世界モデルであるコンセンサス層Cが,エンジニアリングの主要な成果物としてコードを置き換えるパラダイムであるエージェント・コンセンサスを提案する。
本稿では,チャットによるベースラインと比較して,コンセンサスに基づく人間の介入を減らすかどうかを測定するためのベンチマークタスクファミリーを提案する。
- 参考スコア(独自算出の注目度): 22.42181408084751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vibe coding produces correct, executable code at speed, but leaves no record of the structural commitments, dependencies, or evidence behind it. Reviewers cannot determine what invariants were assumed, what changed, or why a regression occurred. This is not a generation failure but a control failure: the dominant artifact of AI-assisted development (code plus chat history) performs dimension collapse, flattening complex system topology into low-dimensional text and making systems opaque and fragile under change. We propose Agentic Consensus: a paradigm in which the consensus layer C, an operable world model represented as a typed property graph, replaces code as the primary artifact of engineering. Executable artifacts are derived from C and kept in correspondence via synchronization operators Phi (realize) and Psi (rehydrate). Evidence links directly to structural claims in C, making every commitment auditable and under-specification explicit as measurable consensus entropy rather than a silent guess. Evaluation must move beyond code correctness toward alignment fidelity, consensus entropy, and intervention distance. We propose benchmark task families designed to measure whether consensus-based workflows reduce human intervention compared to chat-driven baselines.
- Abstract(参考訳): ビブコーディングは正確で実行可能なコードを高速に生成するが、構造的なコミットメントや依存関係、証拠の記録は残っていない。
レビュアーは、どの不変量を仮定したのか、何を変えたのか、なぜ回帰が発生したのかを判断できない。
AI支援開発(コードとチャット履歴)の主要な成果物(コードとチャット履歴)は、次元の崩壊を実行し、複雑なシステムトポロジを低次元のテキストに平らにし、システムの不透明で壊れやすいものにします。
本稿では,Agentic Consensusを提案する。Agentic Consensusとは,入力されたプロパティグラフとして表現される操作可能な世界モデルであるコンセンサス層Cが,エンジニアリングの主要な成果物としてコードを置き換えるパラダイムである。
実行可能なアーティファクトはCから派生し、同期演算子 Phi (realize) と Psi (rehydrate) を介して対応を保つ。
証拠はC の構造的クレームに直接リンクし、すべてのコミットメントを監査可能で不特定であり、無言の推測よりも測定可能なコンセンサスエントロピーとして明示する。
評価は、コードの正確性を超えて、アライメントの忠実さ、コンセンサスエントロピー、介入距離に移行しなければなりません。
チャット駆動のベースラインに比べて,合意に基づくワークフローが人間の介入を減少させるかどうかを測定するために設計されたベンチマークタスクファミリーを提案する。
関連論文リスト
- Beyond Fixed Tests: Repository-Level Issue Resolution as Coevolution of Code and Behavioral Constraints [17.818522356206977]
ほとんどの大規模言語モデル(LLM)ベースの修復システムは、修理中に固定された動作制約を扱います。
本稿では,Agent-CoEvoを提案する。Agent-CoEvoは共進化的マルチエージェントフレームワークで,候補コードパッチとテストパッチを共同で探索し,洗練する。
Agent-CoEvoは、修復の成功と再現性の両方において、最先端のエージェントベースとエージェントレスベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-06T10:26:46Z) - BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations [0.9668407688201359]
我々は、ベイズ的共進化過程として合成を再構成するフレームワークであるBACEを紹介する。
BACEはプロプライエタリモデルとオープンウェイトな小言語モデルの両方で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-30T16:40:11Z) - The Specification as Quality Gate: Three Hypotheses on AI-Assisted Code Review [0.0]
AIが生成するコード品質の問題に対する業界の主要な反応は、AIレビュアーをデプロイすることだ。
本稿では,実行可能な仕様が存在しない場合,この応答は構造的に円形であると主張している。
論文 参考訳(メタデータ) (2026-03-26T11:59:05Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。