論文の概要: From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs
- arxiv url: http://arxiv.org/abs/2601.03808v1
- Date: Wed, 07 Jan 2026 11:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.18672
- Title: From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs
- Title(参考訳): Brute ForceからSemantic Insightへ - LLMによるパフォーマンスガイドデータ変換設計
- Authors: Usha Shrestha, Dmitry Ignatov, Radu Timofte,
- Abstract要約: 大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
- 参考スコア(独自算出の注目度): 48.83701310501069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved notable performance in code synthesis; however, data-aware augmentation remains a limiting factor, handled via heuristic design or brute-force approaches. We introduce a performance-aware, closed-loop solution in the NNGPT ecosystem of projects that enables LLMs to autonomously engineer optimal transformations by internalizing empirical performance cues. We fine-tune LLMs with Low-Rank Adaptation on a novel repository of more than 6,000 empirically evaluated PyTorch augmentation functions, each annotated solely by downstream model accuracy. Training uses pairwise performance ordering (better-worse transformations), enabling alignment through empirical feedback without reinforcement learning, reward models, or symbolic objectives. This reduces the need for exhaustive search, achieving up to 600x times fewer evaluated candidates than brute-force discovery while maintaining competitive peak accuracy and shifting generation from random synthesis to task-aligned design. Ablation studies show that structured Chain-of-Thought prompting introduces syntactic noise and degrades performance, whereas direct prompting ensures stable optimization in performance-critical code tasks. Qualitative and quantitative analyses demonstrate that the model internalizes semantic performance cues rather than memorizing syntax. These results show that LLMs can exhibit task-level reasoning through non-textual feedback loops, bypassing explicit symbolic rewards.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード合成において顕著なパフォーマンスを達成したが、データ認識の拡張は、ヒューリスティック設計やブルートフォースアプローチによって処理される制限要因であり続けている。
我々は、NNGPTエコシステムにおいて、LLMが経験的パフォーマンスキューを内在化することにより、最適な変換を自律的に設計することを可能にする、パフォーマンスを意識したクローズドループソリューションを紹介した。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上に,低ランク適応付きLPMを微調整し,それぞれが下流モデルの精度でアノテートされる。
トレーニングでは、ペアワイズパフォーマンスオーダリング(ベターウォーズ変換)を使用して、強化学習や報酬モデル、あるいは象徴的な目的を使わずに、経験的なフィードバックを通じてアライメントを可能にする。
これにより、徹底的な探索の必要性を減らし、ブラトフォース発見よりも最大600倍の精度の候補を達成できると同時に、競合するピーク精度を維持し、ランダムな合成からタスク整合設計へ変換する。
アブレーション研究によると、構造化Chain-of-Thoughtプロンプトは構文ノイズを導入し、性能を低下させる一方、直接プロンプトはパフォーマンスクリティカルなコードタスクにおいて安定した最適化を保証する。
定性的かつ定量的な分析は、モデルが構文を記憶するのではなく、セマンティックパフォーマンスの手がかりを内部化することを示している。
これらの結果から,LLMは明示的なシンボル報酬を回避し,非テキストフィードバックループを通じてタスクレベルの推論を行うことが可能であることが示唆された。
関連論文リスト
- Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Hierarchical Verification of Speculative Beams for Accelerating LLM Inference [0.0]
階層的検証木(Hierarchical Verification Tree、HVT)は投機的ビーム復号化を高度に優先順位付けすることで再構成する新しいフレームワークである。
HVTは既存の投機的復号法を一貫して上回り、推論時間とエネルギー消費を大幅に削減する。
発見は、大規模言語モデル推論を加速するための新しい方向として階層的検証戦略の可能性を強調している。
論文 参考訳(メタデータ) (2025-07-30T02:58:03Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - PEARL: Towards Permutation-Resilient LLMs [29.55886726376898]
大規模言語モデル(LLM)のインコンテキスト学習(ICL)機能により、提供されたデモを使って困難なタスクを実行できる。
ICLはデモの順序に非常に敏感であり、予測の不安定性につながる。
本稿では,この脆弱性を利用してLLaMA-3の80%近い成功率を達成する自然攻撃を設計できることを示す。
論文 参考訳(メタデータ) (2025-02-20T15:07:02Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。