論文の概要: Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation
- arxiv url: http://arxiv.org/abs/2605.26720v1
- Date: Tue, 26 May 2026 09:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.772251
- Title: Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation
- Title(参考訳): CUDAカーネル生成における自己進化型LLMエージェントのフィードバック・プラン決定に向けて
- Authors: Yee Hin Chong, Jiaming Wu, Youhui Zhang, Peng Qu,
- Abstract要約: 大規模言語モデル(LLM)は、世代間でフィードバック条件付き計画によって駆動される、カーネル生成のための自己進化エージェントとして、強い経験的利益を示している。
我々は、制御された、計画決定の生成レベルの属性を、軌道凍結および選択的フィードバック注入によってフィードバックコンポーネントに与える統合分析層であるtextttCUDAnalystを紹介した。
以上の結果から,フィードバックが整った場合にのみ明示的な計画が有用であること,構造化されたマルチフィードバック相互作用から効果的な計画が出現すること,より強力な推論モデルからの高レベルプランが部分的に弱いプランに移行できること,などが示唆された。
- 参考スコア(独自算出の注目度): 4.076182384896927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong empirical gains as self-evolving agents for CUDA kernel generation, driven by feedback-conditioned planning across generations. However, how planning decisions attribute and combine heterogeneous feedback signals remains opaque. Standard end-to-end ablations fail to resolve this question, as iterative planning amplifies early perturbations and conflates feedback effects with trajectory-dependent drift. We introduce \texttt{CUDAnalyst}, a unified analysis layer for controlled, generation-level attribution of planning decisions to feedback components via trajectory freezing and selective feedback injection. \texttt{CUDAnalyst} enables stable generation-level evaluation and principled coalitional-style attribution of feedback effects and interactions. Our results show that explicit planning is beneficial only when feedback is aligned, that effective planning emerges from structured multi-feedback interactions, and that high-level plans from stronger reasoning models can partially transfer to weaker ones. These trends hold across reference backbones, representative workloads, and reference induction regimes, indicating that the identified feedback-to-plan structure is robust within the controlled axes studied.
- Abstract(参考訳): 大規模言語モデル(LLM)は、CUDAカーネル生成のための自己進化エージェントとして、世代にわたるフィードバック条件付き計画によって、強い経験的利益を示している。
しかし、いかに計画決定が不均一なフィードバック信号の属性と組み合わせを行うかは、いまだ不透明である。
反復計画が初期の摂動を増幅し、軌道依存のドリフトとフィードバック効果を融合させるため、標準のエンドツーエンドのアブレーションはこの問題を解決しない。
我々は,制御された,計画決定の世代レベルの属性を,軌道凍結と選択的フィードバック注入を通じてフィードバックコンポーネントに与える統合分析層である‘texttt{CUDAnalyst} を紹介した。
\texttt{CUDAnalyst} は、安定な世代レベルの評価と、フィードバック効果と相互作用の連立スタイルの帰属を可能にする。
以上の結果から,フィードバックが整った場合にのみ明示的な計画が有用であること,構造化されたマルチフィードバック相互作用から効果的な計画が出現すること,より強力な推論モデルからの高レベルプランが部分的に弱いプランに移行できること,などが示唆された。
これらの傾向は、参照バックボーン、代表的ワークロード、参照帰納規則をまたいだものであり、特定されたフィードバック・プラン構造が研究対象の制御軸内で堅牢であることを示している。
関連論文リスト
- PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement [22.285969725581044]
大規模言語モデル(LLM)ベースのエージェントは、実行時に失敗するように見える一貫性のある計画を生成する。
PIVOTは、トラジェクトリを最適化可能なオブジェクトとして、環境相互作用を通じて反復的に洗練する自己管理フレームワークを通じて、この計画実行ミスアライメントに対処する。
論文 参考訳(メタデータ) (2026-05-11T20:43:20Z) - MOCA: A Transformer-based Modular Causal Inference Framework with One-way Cross-attention and Cutting Feedback [7.234620259018605]
モジュール設計による処理と結果のモデリングを分離するトランスフォーマーベースのフレームワークであるMOCAを提案する。
勾配分離によって実現された切削フィードバック戦略は、処理モジュールの更新による結果損失を防止する。
複数のシミュレートされたシナリオの中で、MOCAはIPW、AIPW、X-learner、TARNet、DragonNetに対する競合的あるいは改善されたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-25T02:05:49Z) - Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents [135.00390535239129]
本稿では,自己改善型計画および反復的行動世界モデリングフレームワークであるSPIRALを紹介する。
SPIRALはActWMをクローズドループシンク-アクト-リフレクションプロセスとして定式化し、そこで生成は明示的な計画とフィードバックの下で段階的に進行する。
複数のTI2Vバックボーンに対する実験は、ActWM-Benchとメインストリームのビデオ生成ベンチマークで一貫した利得を示している。
論文 参考訳(メタデータ) (2026-03-09T14:00:36Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。