論文の概要: VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
- arxiv url: http://arxiv.org/abs/2601.16238v1
- Date: Wed, 21 Jan 2026 19:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.356535
- Title: VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
- Title(参考訳): VibeTensor:AIエージェントが生成するディープラーニングのためのシステムソフトウェア
- Authors: Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi,
- Abstract要約: 実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
- 参考スコア(独自算出の注目度): 42.56489784841984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VIBETENSOR is an open-source research system software stack for deep learning, generated by LLM-powered coding agents under high-level human guidance. In this paper, "fully generated" refers to code provenance: implementation changes were produced and applied as agent-proposed diffs; validation relied on agent-run builds, tests, and differential checks, without per-change manual diff review. It implements a PyTorch-style eager tensor library with a C++20 core (CPU+CUDA), a torch-like Python overlay via nanobind, and an experimental Node.js/TypeScript interface. Unlike thin bindings, VIBETENSOR includes its own tensor/storage system, schema-lite dispatcher, reverse-mode autograd, CUDA runtime (streams/events/graphs), a stream-ordered caching allocator with diagnostics, and a stable C ABI for dynamically loaded operator plugins. We view this release as a milestone for AI-assisted software engineering: it shows coding agents can generate a coherent deep learning runtime spanning language bindings down to CUDA memory management, validated primarily by builds and tests. We describe the architecture, summarize the workflow used to produce and validate the system, and evaluate the artifact. We report repository scale and test-suite composition, and summarize reproducible microbenchmarks from an accompanying AI-generated kernel suite, including fused attention versus PyTorch SDPA/FlashAttention. We also report end-to-end training sanity checks on 3 small workloads (sequence reversal, ViT, miniGPT) on NVIDIA H100 (Hopper, SM90) and Blackwell-class GPUs; multi-GPU results are Blackwell-only and use an optional CUTLASS-based ring-allreduce plugin gated on CUDA 13+ and sm103a toolchain support. Finally, we discuss failure modes in generated system software, including a "Frankenstein" composition effect where locally correct subsystems interact to yield globally suboptimal performance.
- Abstract(参考訳): VIBETENSOR(ビベッチェンソル)は、LLMによるコーディングエージェントによって高レベルの人的指導の下で生成されるディープラーニングのためのオープンソースの研究システムスタックである。
実装の変更はエージェントが提案した差分として生成され、検証はエージェントが実行したビルド、テスト、差分チェックに依存するが、手動差分レビューは行わない。
C++20コア(CPU+CUDA)、nanobind経由のトーチのようなPythonオーバーレイ、実験的なNode.js/TypeScriptインターフェースを備えたPyTorchスタイルのテンソルライブラリを実装している。
シンバインディングとは異なり、VIBETENSORには独自のテンソル/ストレージシステム、スキーマ-ライトディスパッチ、リバースモードオートグレード、CUDAランタイム(ストリーム/イベント/グラフ)、診断機能を備えたストリーム順序のキャッシュアロケータ、動的にロードされたオペレータプラグイン用の安定したC ABIが含まれている。
コーディングエージェントは、言語バインディングをCUDAメモリ管理に集約した一貫性のあるディープラーニングランタイムを生成することができ、主にビルドとテストによって検証される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
PyTorch SDPA/FlashAttentionに対して,リポジトリのスケールとテストスイートの構成を報告し,関連するAI生成カーネルスイートから再現可能なマイクロベンチマークを要約する。
また、NVIDIA H100(Hopper, SM90)およびBlackwellクラスのGPU上での3つの小さなワークロード(シーケンスリバース、ViT、miniGPT)に対するエンドツーエンドのトレーニング衛生チェックを報告します。
最後に、「フランケンシュタイン」合成効果を含む生成システムソフトウェアにおける障害モードについて論じる。
関連論文リスト
- Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity [2.7389338551082605]
性能ボトルネックを予測するため,LLM(Large Language Models)のベンチマークを開発した。
FLOPBenchは577カーネルの単精度と倍精度のFLOP数を予測する。
われわれはFLOPBenchをLLMツールの開発に焦点をあてたテストベッドとして位置づけた。
論文 参考訳(メタデータ) (2025-12-04T01:03:20Z) - Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-21T05:37:38Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Towards a high-performance AI compiler with upstream MLIR [34.89141656581549]
本研究では,オープンソースのコンパイラパスを用いたコンパイルフローを提案し,忍者パフォーマンスを実現するためのフレームワークを構築する。
この流れを,Packing と PyTorch の Linalg-on-Tensor における入射IR を用いた概念実証 MLIR プロジェクトで実証する。
論文 参考訳(メタデータ) (2024-04-15T10:35:50Z) - UncertaintyPlayground: A Fast and Simplified Python Library for
Uncertainty Estimation [0.0]
UncertaintyPlaygroundはPyTorchとGPyTorch上に構築されたPythonライブラリで、教師付き学習タスクの不確かさを推定する。
このライブラリは、ガウスおよびマルチモーダルな結果分布の高速なトレーニングを提供する。
1つ以上のインスタンスの予測間隔を視覚化することができる。
論文 参考訳(メタデータ) (2023-10-23T18:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。