Fugu-MT 論文翻訳(概要): VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

論文の概要: VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

arxiv url: http://arxiv.org/abs/2601.16238v1
Date: Wed, 21 Jan 2026 19:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-26 14:27:27.356535
Title: VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
Title（参考訳）: VibeTensor:AIエージェントが生成するディープラーニングのためのシステムソフトウェア
Authors: Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi,
Abstract要約: 実装の変更が生成され、エージェントが提案する差分として適用される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
参考スコア（独自算出の注目度）: 42.56489784841984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: VIBETENSOR is an open-source research system software stack for deep learning, generated by LLM-powered coding agents under high-level human guidance. In this paper, "fully generated" refers to code provenance: implementation changes were produced and applied as agent-proposed diffs; validation relied on agent-run builds, tests, and differential checks, without per-change manual diff review. It implements a PyTorch-style eager tensor library with a C++20 core (CPU+CUDA), a torch-like Python overlay via nanobind, and an experimental Node.js/TypeScript interface. Unlike thin bindings, VIBETENSOR includes its own tensor/storage system, schema-lite dispatcher, reverse-mode autograd, CUDA runtime (streams/events/graphs), a stream-ordered caching allocator with diagnostics, and a stable C ABI for dynamically loaded operator plugins. We view this release as a milestone for AI-assisted software engineering: it shows coding agents can generate a coherent deep learning runtime spanning language bindings down to CUDA memory management, validated primarily by builds and tests. We describe the architecture, summarize the workflow used to produce and validate the system, and evaluate the artifact. We report repository scale and test-suite composition, and summarize reproducible microbenchmarks from an accompanying AI-generated kernel suite, including fused attention versus PyTorch SDPA/FlashAttention. We also report end-to-end training sanity checks on 3 small workloads (sequence reversal, ViT, miniGPT) on NVIDIA H100 (Hopper, SM90) and Blackwell-class GPUs; multi-GPU results are Blackwell-only and use an optional CUTLASS-based ring-allreduce plugin gated on CUDA 13+ and sm103a toolchain support. Finally, we discuss failure modes in generated system software, including a "Frankenstein" composition effect where locally correct subsystems interact to yield globally suboptimal performance.
Abstract（参考訳）: VIBETENSOR(ビベッチェンソル)は、LLMによるコーディングエージェントによって高レベルの人的指導の下で生成されるディープラーニングのためのオープンソースの研究システムスタックである。実装の変更はエージェントが提案した差分として生成され、検証はエージェントが実行したビルド、テスト、差分チェックに依存するが、手動差分レビューは行わない。 C++20コア(CPU+CUDA)、nanobind経由のトーチのようなPythonオーバーレイ、実験的なNode.js/TypeScriptインターフェースを備えたPyTorchスタイルのテンソルライブラリを実装している。シンバインディングとは異なり、VIBETENSORには独自のテンソル/ストレージシステム、スキーマ-ライトディスパッチ、リバースモードオートグレード、CUDAランタイム(ストリーム/イベント/グラフ)、診断機能を備えたストリーム順序のキャッシュアロケータ、動的にロードされたオペレータプラグイン用の安定したC ABIが含まれている。コーディングエージェントは、言語バインディングをCUDAメモリ管理に集約した一貫性のあるディープラーニングランタイムを生成することができ、主にビルドとテストによって検証される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。 PyTorch SDPA/FlashAttentionに対して,リポジトリのスケールとテストスイートの構成を報告し,関連するAI生成カーネルスイートから再現可能なマイクロベンチマークを要約する。また、NVIDIA H100(Hopper, SM90)およびBlackwellクラスのGPU上での3つの小さなワークロード(シーケンスリバース、ViT、miniGPT)に対するエンドツーエンドのトレーニング衛生チェックを報告します。最後に、「フランケンシュタイン」合成効果を含む生成システムソフトウェアにおける障害モードについて論じる。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules [19.355376741404267]
ディープラーニング(DL)ライブラリの単体テストは、複雑な数値意味論と暗黙のテンソル制約のために困難である。本稿では,モジュールレベルの単体テスト生成のためのエージェント駆動テストフレームワークであるATTestを提案する。
論文参考訳（メタデータ） (2026-02-15T04:47:58Z)
Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control [61.155940786140455]
強化学習(RL)は,アクティブフロー制御(AFC)において有望な結果を示した。現在のAFCベンチマークは、外部計算流体力学(CFD)の解法に依存しており、完全には微分不可能であり、3Dとマルチエージェントのサポートが限られている。 AFCにおけるRLのための最初のスタンドアロンで完全に差別化可能なベンチマークスイートであるFluidGymを紹介する。
論文参考訳（メタデータ） (2026-01-21T14:13:44Z)
Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity [2.7389338551082605]
性能ボトルネックを予測するため,LLM(Large Language Models)のベンチマークを開発した。 FLOPBenchは577カーネルの単精度と倍精度のFLOP数を予測する。われわれはFLOPBenchをLLMツールの開発に焦点をあてたテストベッドとして位置づけた。
論文参考訳（メタデータ） (2025-12-04T01:03:20Z)
Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-11-21T05:37:38Z)
SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。 GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文参考訳（メタデータ） (2025-06-13T07:11:14Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Towards a high-performance AI compiler with upstream MLIR [34.89141656581549]
本研究では,オープンソースのコンパイラパスを用いたコンパイルフローを提案し,忍者パフォーマンスを実現するためのフレームワークを構築する。この流れを,Packing と PyTorch の Linalg-on-Tensor における入射IR を用いた概念実証 MLIR プロジェクトで実証する。
論文参考訳（メタデータ） (2024-04-15T10:35:50Z)
UncertaintyPlayground: A Fast and Simplified Python Library for Uncertainty Estimation [0.0]
UncertaintyPlaygroundはPyTorchとGPyTorch上に構築されたPythonライブラリで、教師付き学習タスクの不確かさを推定する。このライブラリは、ガウスおよびマルチモーダルな結果分布の高速なトレーニングを提供する。 1つ以上のインスタンスの予測間隔を視覚化することができる。
論文参考訳（メタデータ） (2023-10-23T18:36:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。