論文の概要: Five Fatal Assumptions: Why T-Shirt Sizing Systematically Fails for AI Projects
- arxiv url: http://arxiv.org/abs/2602.17734v1
- Date: Wed, 18 Feb 2026 20:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.088887
- Title: Five Fatal Assumptions: Why T-Shirt Sizing Systematically Fails for AI Projects
- Title(参考訳): AIプロジェクトにとって、Tシャツサイズがシステム的に失敗する理由
- Authors: Raja Soundaramourty, Ozkan Kilic, Ramu Chenchaiah,
- Abstract要約: 本稿は,Tシャツサイズにおける5つの基本的な仮定について,エビデンスを背景とした分析を行った。
マルチエージェントシステム障害に関する最近の研究に基づいて、AI開発がこれらのルールを破る方法を示す。
この論文は、AIイニシアチブの計画と提供を担当するエンジニアリングマネージャ、技術リーダ、プロダクトオーナーを対象としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agile estimation techniques, particularly T-shirt sizing, are widely used in software development for their simplicity and utility in scoping work. However, when we apply these methods to artificial intelligence initiatives -- especially those involving large language models (LLMs) and multi-agent systems -- the results can be systematically misleading. This paper shares an evidence-backed analysis of five foundational assumptions we often make during T-shirt sizing. While these assumptions usually hold true for traditional software, they tend to fail in AI contexts: (1) linear effort scaling, (2) repeatability from prior experience, (3) effort-duration fungibility, (4) task decomposability, and (5) deterministic completion criteria. Drawing on recent research into multi-agent system failures, scaling principles, and the inherent unreliability of multi-turn conversations, we show how AI development breaks these rules. We see this through non-linear performance jumps, complex interaction surfaces, and "tight coupling" where a small change in data cascades through the entire stack. To help teams navigate this, we propose Checkpoint Sizing: a more human-centric, iterative approach that uses explicit decision gates where scope and feasibility are reassessed based on what we learn during development, rather than what we assumed at the start. This paper is intended for engineering managers, technical leads, and product owners responsible for planning and delivering AI initiatives.
- Abstract(参考訳): アジャイル推定テクニック、特にTシャツのサイズは、スコーピング作業の単純さと有用性のためにソフトウェア開発で広く使われている。
しかし、これらの手法を人工知能のイニシアチブ、特に大規模言語モデル(LLM)やマルチエージェントシステムに適用すると、結果は体系的に誤解を招く可能性がある。
本稿は,Tシャツサイズにおける5つの基本的な仮定について,エビデンスを背景とした分析を行った。
これらの仮定は通常、従来のソフトウェアに当てはまるが、AIの文脈では失敗する傾向にある: 1) 線形の取り組みのスケーリング、(2) 以前の経験からの反復可能性、(3) 努力の継続性、(4) タスクの分解可能性、(5) 決定論的完了基準。
マルチエージェントシステム障害、スケーリング原則、マルチターン会話の本質的な信頼性の欠如に関する最近の研究に基づいて、AI開発がこれらのルールを破る方法を示している。
これは、非線形なパフォーマンスジャンプ、複雑なインタラクションサーフェス、スタック全体を通して小さなデータカスケードが変更される"タイトな結合"を通じて見られます。
これをナビゲートするために、私たちは、より人間中心で反復的なアプローチであるCheckpoint Sizeを提案します。
この論文は、AIイニシアチブの計画と提供を担当するエンジニアリングマネージャ、技術リーダ、プロダクトオーナーを対象としている。
関連論文リスト
- Process-Centric Analysis of Agentic Software Systems [10.976178600911263]
ソフトウェアシステムにおける時間的・意味的な関係をエンコードするためにGraphectoryを導入する。
2つの支配的エージェントプログラミングモデルの4000のトラジェクトリを解析する。
完全に自動化された分析により、よりリッチなプロンプトを用いたエージェントはより複雑なGraphectoryを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-12-02T04:12:29Z) - A Tutorial on Cognitive Biases in Agentic AI-Driven 6G Autonomous Networks [3.0475538102144575]
本稿では, 分類, 定義, 数学的定式化, 通信システムの出現, 一般に影響を受けるエージェント成分など, よく知られたバイアスの選択に関するチュートリアルを提供する。
また、バイアスの種類ごとに調整された様々な緩和戦略も提示する。
この記事は最終的に2つの実用的なユースケースを提供し、これは6G間スライスとクロスドメイン管理における有名なバイアスの出現、影響、緩和に対処するものである。
論文 参考訳(メタデータ) (2025-10-22T19:05:04Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - Towards the Next Generation of Software: Insights from Grey Literature on AI-Native Applications [13.876049229274114]
AIネイティブアプリケーションは、ソフトウェアの設計、開発、進化の方法を根本的に再定義する、ソフトウェアエンジニアリングの新しいパラダイムである。
人気が高まっているにもかかわらず、AIネイティブアプリケーションには、統一されたエンジニアリング定義とアーキテクチャの青写真がない。
本研究は、AIネイティブアプリケーションの定義特性、キー品質特性、および典型的な技術スタックを識別することにより、AIネイティブアプリケーションの包括的な理解を確立することを目的とする。
論文 参考訳(メタデータ) (2025-09-16T15:01:23Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - ProRefine: Inference-Time Prompt Refinement with Textual Feedback [10.679248386926703]
AgenticThoughtは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。
本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。
論文 参考訳(メタデータ) (2025-06-05T17:52:30Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Toward Neurosymbolic Program Comprehension [46.874490406174644]
我々は,既存のDL技術の強みと従来の象徴的手法を組み合わせたニューロシンボリック研究の方向性を提唱する。
第1回ニューロシンボリック・プログラム・フレームワークの確立をめざして,提案するアプローチの予備的結果を示す。
論文 参考訳(メタデータ) (2025-02-03T20:38:58Z) - Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。
本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文 参考訳(メタデータ) (2025-01-02T14:20:36Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。