論文の概要: Step-TP: A Grounded, Step-Level Dataset with Chain-of-Thought Reasoning for LLM-Guided Tensor Program Optimization
- arxiv url: http://arxiv.org/abs/2605.25954v1
- Date: Mon, 25 May 2026 15:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.436694
- Title: Step-TP: A Grounded, Step-Level Dataset with Chain-of-Thought Reasoning for LLM-Guided Tensor Program Optimization
- Title(参考訳): Step-TP: LLM-Guided Tensor Program OptimizationのためのChain-of-Thought Reasoningを用いた地上ステップレベルデータセット
- Authors: Mengfan Liu, Da Zheng, Junwei Su, Chuan Wu,
- Abstract要約: Step-TPはテンソルプログラム最適化のためのトレーニング後のデータセットである。
構造的チェーン・オブ・シークレット(CoT)推論による、基底的で原子レベルのステップレベルの監視を提供する。
Step-TPは、中間プログラム状態上のクローズド推論ループを形成し、信頼性の高いマルチステップ最適化を可能にする。
- 参考スコア(独自算出の注目度): 24.150613011881774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong reasoning capabilities of large language models (LLMs), optimizing the execution efficiency of tensor programs remains challenging due to the need for precise, composable transformation decisions. Recent LLM-guided approaches frame tensor program optimization as an iterative decision process, but existing datasets provide only end-to-end optimized program pairs using token-inefficient representations, lacking verifiable step-level supervision and interpretability. As a result, LLMs struggle to make reliable single-step decisions in large combinatorial optimization spaces. We introduce Step-TP, a post-training dataset for tensor program optimization that provides grounded, atomic, step-level supervision with structured chain-of-thought (CoT) reasoning. Step-TP forms a closed reasoning loop over intermediate program states, enabling reliable multi-step optimization rather than outcome imitation. Its design is guided by four principles: (i) a token-efficient, verifiable intermediate representation (IR) that deterministically lowers to TVM TIR; (ii) atomic and composable optimization strategies that decompose complex trajectories into interpretable single-step decisions; (iii) structured CoT supervision coupled with explicit IR-to-IR state transitions; and (iv) strategy filtering to balance coverage while preventing shortcut exploitation. The dataset and implementation are available at a GitHub link, https://github.com/LIUMENGFAN-gif/StepTP.
- Abstract(参考訳): 大規模言語モデル(LLM)の強い推論能力にもかかわらず、正確な構成可能な変換決定を必要とするため、テンソルプログラムの実行効率を最適化することは依然として困難である。
近年のLCM誘導によるフレームテンソルプログラム最適化は反復的決定プロセスとして行われているが,既存のデータセットはトークン非効率表現を用いたエンドツーエンド最適化プログラムペアのみを提供し,ステップレベルの監視と解釈性に欠ける。
その結果、LLMは大規模な組合せ最適化空間において信頼性の高い単一ステップ決定を行うのに苦労した。
テンソルプログラム最適化のための後トレーニングデータセットであるStep-TPを導入し、構造化チェーン・オブ・シークレット(CoT)推論を用いた基底的、原子的、ステップレベルの監視を実現する。
Step-TPは中間プログラム状態のクローズド推論ループを形成し、結果の模倣よりも信頼性の高いマルチステップ最適化を可能にする。
設計には4つの原則がある。
i)TVM TIRに決定的に低下するトークン効率、検証可能な中間表現(IR)
(II)複雑な軌道を解釈可能な単一ステップ決定に分解する原子的かつ構成可能な最適化戦略
三 CoT の構造化と明示的なIR-to-IR状態遷移
四 ショートカットの実施を防止しつつ、カバレッジのバランスをとるための戦略フィルタリング。
データセットと実装はGitHubのリンク、https://github.com/LiumENGFAN-gif/StepTPで入手できる。
関連論文リスト
- Execution-Verified Reinforcement Learning for Optimization Modeling [49.171122807323634]
実行検証学習フレームワークは、数学的プログラミング解法を決定論的で対話的な検証器として扱う。
NL4OPT, MAMO, IndustryOR, OptiBenchをグロビ, OR-Tools, COPTで行った実験では, EVOMがプロセス管理SFTに適合または優れていた。
論文 参考訳(メタデータ) (2026-04-01T03:39:11Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - Adaptive Dependency-aware Prompt Optimization Framework for Multi-Step LLM Pipeline [9.013236765328301]
我々は,多段階LLMパイプラインのための適応依存型プロンプト最適化フレームワークであるADOPTを提案する。
ADOPTは、各LCMステップと最終タスク結果の依存関係を明示的にモデル化し、正確なテキスト勾配推定を可能にする。
実世界のデータセットと多様なパイプライン構造の実験は、ADOPTが効果的で堅牢であることを示している。
論文 参考訳(メタデータ) (2025-12-31T15:46:37Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning [30.44007644340425]
本稿では,モンテカルロ木探索 (MCTS) とGRPOを統合した新しいフレームワーク PROPA について紹介する。
7つのベンチマークと4つのVLMバックボーンで、PROPAはSFTとRLVRベースのベースラインを一貫して上回っている。
ドメイン内タスクで最大17.0%、ドメイン外タスクで最大21.0%のゲインを達成する。
論文 参考訳(メタデータ) (2025-11-13T13:06:12Z) - SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [30.938876549335067]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。
有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。
Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文 参考訳(メタデータ) (2025-04-14T16:15:55Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。