論文の概要: AI-Assisted Engineering Should Track the Epistemic Status and Temporal Validity of Architectural Decisions
- arxiv url: http://arxiv.org/abs/2601.21116v1
- Date: Wed, 28 Jan 2026 23:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.477176
- Title: AI-Assisted Engineering Should Track the Epistemic Status and Temporal Validity of Architectural Decisions
- Title(参考訳): AI支援エンジニアリングは、アーキテクチャ決定のエピステマティックな状態と時間的妥当性を追跡すべきである
- Authors: Sankalp Gilda, Shlok Gilda,
- Abstract要約: LLMコーディングアシスタントは、チームが検証できるよりも早く意思決定を生成する。
広く採用されているフレームワークは、検証された知識と推測を区別するものではない。
責任あるAI支援工学の3つの要件を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This position paper argues that AI-assisted software engineering requires explicit mechanisms for tracking the epistemic status and temporal validity of architectural decisions. LLM coding assistants generate decisions faster than teams can validate them, yet no widely-adopted framework distinguishes conjecture from verified knowledge, prevents trust inflation through conservative aggregation, or detects when evidence expires. We propose three requirements for responsible AI-assisted engineering: (1) epistemic layers that separate unverified hypotheses from empirically validated claims, (2) conservative assurance aggregation grounded in the Gödel t-norm that prevents weak evidence from inflating confidence, and (3) automated evidence decay tracking that surfaces stale assumptions before they cause failures. We formalize these requirements as the First Principles Framework (FPF), ground its aggregation semantics in fuzzy logic, and define a quintet of invariants that any valid aggregation operator must satisfy. Our retrospective audit applying FPF criteria to two internal projects found that 20-25% of architectural decisions had stale evidence within two months, validating the need for temporal accountability. We outline research directions including learnable aggregation operators, federated evidence sharing, and SMT-based claim validation.
- Abstract(参考訳): このポジションペーパーは、AI支援ソフトウェアエンジニアリングは、アーキテクチャ決定の認識状態と時間的妥当性を追跡するための明確なメカニズムを必要とすると主張している。
LLMコーディングアシスタントは、チームが検証できるよりも早く意思決定を生成するが、広く採用されているフレームワークでは、検証された知識から推測を区別したり、保守的な集約を通じて信頼インフレーションを防いだり、証拠が期限切れになったときを検出する。
我々は,(1)実証的検証された主張から未検証の仮説を分離する認識層,(2)弱い証拠が膨らむことを防ぐGödel t-normに根ざした保守的な保証層,(3)失敗が起こる前に不安定な仮定を表面的に追跡する自動証明の3つの要件を提案する。
これらの要件をFPF(First Principles Framework)として形式化し、ファジィ論理でアグリゲーションセマンティクスを基盤とし、任意の有効なアグリゲーション演算子が満たさなければならない不変量のクインテットを定義する。
FPF基準を2つの社内プロジェクトに適用したふりかえりの監査では、アーキテクチャ上の決定の20~25%が2ヶ月以内に証拠を損なっており、時間的説明責任の必要性が検証された。
本稿では,学習可能なアグリゲーション演算子,フェデレーション共有,SMTに基づくクレーム検証などの研究の方向性について概説する。
関連論文リスト
- VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Structured Decomposition for LLM Reasoning: Cross-Domain Validation and Semantic Web Integration [0.0]
ルールベースの推論は、決定が監査可能で正当化可能な領域で発生します。
このような入力にルールを適用するには、解釈の柔軟性と形式的な保証の両方が必要である。
本稿では,これらの強みを組み合わせた統合パターンを提案する。
論文 参考訳(メタデータ) (2026-01-04T17:19:20Z) - Eidoku: A Neuro-Symbolic Verification Gate for LLM Reasoning via Structural Constraint Satisfaction [0.0]
大規模言語モデル(LLM)は、しばしば、モデル自身によって高い確率で割り当てられる幻覚文を生成する。
このことは、幻覚はしばしば低信頼現象ではなく、構造的整合性の失敗であることを示している。
我々は,LLM推論を,生成可能性とは独立に動作する制約満足度問題(CSP)として検証する。
論文 参考訳(メタデータ) (2025-12-19T05:29:43Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文 参考訳(メタデータ) (2025-09-20T00:29:38Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。