論文の概要: LLM-Guided Evolutionary Search for Algebraic T-Count Optimization
- arxiv url: http://arxiv.org/abs/2603.29894v1
- Date: Tue, 31 Mar 2026 15:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.748417
- Title: LLM-Guided Evolutionary Search for Algebraic T-Count Optimization
- Title(参考訳): 代数的T-Count最適化のためのLLM誘導進化探索
- Authors: Daniil Fisher, Valentin Khrulkov, Mikhail Saygin, Ivan Oseledets, Stanislav Straupe,
- Abstract要約: VarTODDはFastTODDのポリシーパラメータ化版である。
我々は、VarTODDポリシーがFastTODDの強力なベースラインと一致しているか改善しているかを示す。
自動チューニングの原理の証明として、GigaEvoでVarTODDポリシーを最適化する。
- 参考スコア(独自算出の注目度): 5.792011918845881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the non-Clifford cost of fault-tolerant quantum circuits is a central challenge in quantum compilation, since T gates are typically far more expensive than Clifford operations in error-corrected architectures. For Clifford+T circuits, minimizing T-count remains a difficult combinatorial problem even for highly structured algebraic optimizers. We introduce VarTODD, a policy-parameterized variant of FastTODD in which the correctness-preserving algebraic transformations are left unchanged while candidate generation, pooling, and action selection are exposed as tunable heuristic components. This separates the quality of the algebraic rewrite system from the quality of the search policy. On standard arithmetic benchmarks, fixed hand-designed VarTODD policies already match or improve strong FastTODD baselines, including reductions from 147 to 139 for GF(2^9) and from 173 to 163 for GF(2^10) in the corresponding benchmark branches. As a proof of principle for automated tuning, we then optimize VarTODD policies with GigaEvo, an LLM-guided evolutionary framework, and obtain additional gains on harder instances, reaching 157 for GF(2^10) and 385 for GF(2^16). These results identify policy optimization as an independent and practical lever for improving algebraic T-count reduction, while LLM-guided evolution provides one viable way to exploit it.
- Abstract(参考訳): Tゲートは、エラー修正アーキテクチャにおけるクリフォード演算よりもはるかに高価であるため、フォールトトレラント量子回路の非クリフォードコストの削減は、量子コンパイルにおける中心的な課題である。
クリフォード+T回路の場合、Tカウントの最小化は高度に構造化された代数的オプティマイザであっても難しい組合せ問題である。
本稿では、FastTODDのポリシーパラメータ化版であるVarTODDを紹介し、候補生成、プーリング、アクション選択を調整可能なヒューリスティック成分として公開しながら、正確性を保存する代数変換を変更せずに残す。
これにより、代数的書き換えシステムの品質と検索ポリシーの質を分離する。
標準的な算術ベンチマークでは、固定手設計のVarTODDポリシーは、GF(2^9)の147から139へ、GF(2^10)の173から163までの削減を含む、強いFastTODDベースラインにすでに一致するか改善されている。
自動チューニングの原理の証明として、LLM誘導の進化的フレームワークであるGigaEvoを用いてVarTODDポリシーを最適化し、より厳密なインスタンスで157、GF(2^16)で385に達する。
これらの結果は、政策最適化を、代数的T数削減を改善するための独立的で実用的なレバーとみなし、LLM誘導進化は、それを利用するための一つの有効な方法を提供する。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - On-Policy Supervised Fine-Tuning for Efficient Reasoning [27.67711115864118]
大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。
近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。
従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T19:16:39Z) - SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文 参考訳(メタデータ) (2026-02-07T09:39:21Z) - From Inexact Gradients to Byzantine Robustness: Acceleration and Optimization under Similarity [12.097833603814252]
そこで,Byzantine-Robust分散最適化は,不正確な勾配オラクルを用いた一般化最適化として適用可能であることを示す。
収束を高速化する2つの最適化手法を提案する。
論文 参考訳(メタデータ) (2026-02-03T09:56:23Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - EvolVE: Evolutionary Search for LLM-based Verilog Generation and Optimization [0.2796197251957245]
本稿では,チップ設計タスクにおける複数の進化戦略を解析する最初のフレームワークであるEvolVEを紹介する。
また,全国集積回路コンテストから派生した産業規模の問題を対象とするIC-RTLを導入する。
論文 参考訳(メタデータ) (2026-01-26T01:53:54Z) - Survival of the Optimized: An Evolutionary Approach to T-depth Reduction [2.089191490381739]
量子エラー補正(Quantum Error Correction, QEC)は、実用的フォールトトレラント量子コンピューティング(FTQC)の基盤である
回路ゲートが大きくなると、シーケンシャルなTゲート層("T-deepth")がオーバヘッドを増幅する。
最適層マージパターンを近似した数学的定式化を導入する。
我々は最先端手法よりもT深度が2.58倍向上した。
論文 参考訳(メタデータ) (2025-04-13T00:55:18Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast
Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。
本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文 参考訳(メタデータ) (2023-02-28T19:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。