論文の概要: Staged Factorial Screening for Budget-Constrained Micro-Pretraining
- arxiv url: http://arxiv.org/abs/2606.05186v1
- Date: Mon, 27 Apr 2026 21:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.643313
- Title: Staged Factorial Screening for Budget-Constrained Micro-Pretraining
- Title(参考訳): 予算制約型マイクロプレトレーニングのための段階的因子スクリーニング
- Authors: Felipe Chavarro Polania,
- Abstract要約: 予算制約付きマイクロプレトレーニングでは、より多くの検索予算が費やされる前に、多くの候補レシピをトリアージする必要がある。
本研究では, 段階的な分数分解的ワークフローが, 安定な初期効果構造を回復できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Budget-constrained micro-pretraining often requires triaging many candidate recipes on a shared accelerator before larger search budgets are spent. We study whether a staged fractional-factorial workflow can recover stable early effect structure in this setting. On a fixed autoresearch-derived single-GPU training loop, we run 613 experiments across pilot and follow-up screens at 2, 5, and 10 minutes; full 16-condition seeded reruns at 5 and 10 minutes; targeted seeded anchor checks; same-host greedy and matched-cost random baselines; a 60-minute bridge package; and bounded Windows A100 and Linux L40S anchor continuations through 24 hours. Main penalties from total batch, depth, and width are largest at short budgets and relax as budget increases. Within the predeclared seeded full-screen families, D, A, B, and C retain non-zero estimates at 5 and 10 minutes after within-budget Benjamini-Hochberg correction, while E does not. Random search can reach strong incumbents in this 32-condition space, but repeatedly in the same low-penalty region and without factor attribution. The 60-minute bridge anchor has the lowest mean, although that package does not separate workflow refinement from the larger bridge model's capacity advantage. In bounded 12-hour and 24-hour three-anchor continuations on both hosts, the bridge has the lowest sample mean while the non-bridge ordering stays host-sensitive. We therefore present a bounded methods result: use short designed screens to identify high-penalty directions, confirm promising anchors under repeated runs, and refine locally inside the reduced space. The evidence supports a bridge-centered recommendation through 24 hours on two hosts, not hardware-invariant ranking or general hyperparameter-optimization superiority.
- Abstract(参考訳): 予算制約のあるマイクロプレトレーニングでは、より大きな検索予算が費やされる前に、共有アクセラレーター上で多くの候補レシピをトリアージする必要があることが多い。
本研究では, 段階的な分数分解的ワークフローが, 安定な初期効果構造を回復できるかどうかを考察する。
固定されたオート検索によるシングルGPUトレーニングループでは、パイロットとフォローアップスクリーン間で613の実験を2、5、10分で実行し、完全な16条件のシード実行を5分から10分で実行し、ターゲットのシードされたアンカーチェック、同じホストのgreedyとマッチしたランダムなベースライン、60分のブリッジパッケージ、バウンドされたWindows A100とLinux L40Sアンカー継続を24時間で実行しました。
総バッチ、深さ、幅の主なペナルティは、予算が増加するにつれて、短期予算で最大であり、緩和される。
D、A、B、Cは、プレ宣言されたフルスクリーンファミリーの中で、予算内修正の5分から10分後に非ゼロ推定を保っているが、Eはそうではない。
ランダム探索は、この32条件空間において強い存在に到達できるが、同じ低ペナルティ領域で繰り返し、要因の帰属がない。
60分間のブリッジアンカーは最低平均であるが、このパッケージはより大きなブリッジモデルのキャパシティの利点とワークフローの洗練を区別していない。
両ホストでの12時間24時間3アンカー継続では、橋は最低のサンプル平均を持ち、非ブリッジオーダリングはホストに敏感である。
そこで,本研究では, 短い設計画面を用いて高額な方向を識別し, 繰り返し実行時の保証アンカーを確認し, 縮小空間内を局所的に精査する手法を提案する。
このエビデンスでは、ハードウェア不変のランキングや一般的なハイパーパラメータ最適化の優位性ではなく、2つのホスト上で24時間にわたってブリッジ中心のレコメンデーションが支持されている。
関連論文リスト
- Small Experiments, Cheaper Decisions: A Case Study in Staged Promotion for Micro-Pretraining [0.0]
我々は, Windows A100 と Linux L40S の2つの異種ホストブロック上で, 固定マイクロプレトレーニングランナに対して, 監査可能なステージングプロモーションプロトコルについて検討した。
2分、5分、10分、60分、12時間という段階的な予算を使います。
論文 参考訳(メタデータ) (2026-06-09T19:10:54Z) - Entropy Across the Bridge: Conditional-Marginal Discretization for Flow and Schrödinger Samplers [68.9946633641494]
フローマッチングとシュルディンガーブリッジは確率を定義するが、その推論格子は通常一点拡散から受け継がれる。
終端条件付き橋梁形状を境界流の進化から分離し, 橋梁を識別する条件付きエントロピーレートを導出する。
EDM/CIFAR-10では、エントロピックな時間分散は5段階のFID(186.3 pm 4.0対200.5 pm 2.9対cosineの238.0 pm 5.3)が最適である。
論文 参考訳(メタデータ) (2026-05-15T16:11:10Z) - EndPrompt: Efficient Long-Context Extension via Terminal Anchoring [62.81677226065374]
本稿では,短いトレーニングシーケンスのみを用いて,効果的なコンテキスト拡張を実現する手法であるEndPromptを提案する。
我々は、元の短いコンテキストを無傷の第1セグメントとして保存し、短い端末プロンプトを第2セグメントとして追加し、ターゲットコンテキスト長の近傍に位置指標を割り当てる。
エンドプロンプトの平均RULERスコアは76.03で、LongBenchでは最高であり、LCEG(72.24)、LongLoRA(72.95)、フル長のファインチューニングを上回っている。
論文 参考訳(メタデータ) (2026-05-14T09:00:03Z) - ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference [12.04455190856202]
ProxyKVはクロスモデルプロキシプルーニングフレームワークである。
軽量なファミリー内Small-Model Proxyにスコアをオフロードし、Large-Model Targetに非同期に実行する。
Llama-3.1-8B(Dual-GPU; $sim$1.5times$ shared single-GPU)で最大$3.21timesのプリフィルスピードアップを提供し、Qwen-2.5-7Bで最大170kのトークンでスピードアップを継続する。
論文 参考訳(メタデータ) (2026-05-09T13:18:01Z) - Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - Small Vision-Language Models are Smart Compressors for Long Video Understanding [73.65465038390771]
長時間のビデオ理解は、欲求に満ちたコンテキストではなく、意図駆動の効率に頼っている。
本稿では,下流の理解のために長い動画を圧縮する効率的なクエリ認識フレームワークであるTempoを提案する。
テストでは、Tempoが1時間のビデオを理論的限界以下に圧縮し、真のロングフォームビデオ理解が意図駆動の効率に依存することを示した。
論文 参考訳(メタデータ) (2026-04-09T11:40:25Z) - Rectified Schrödinger Bridge Matching for Few-Step Visual Navigation [18.319705014361908]
視覚ナビゲーションはEmbodied AIの中核的な課題であり、自律エージェントは高次元の感覚観察を長距離行動軌跡に変換する必要がある。
我々は,シュルディンガー橋と決定論的輸送の共通速度場構造を利用するフレームワークであるRectified Schrdinger Bridge Matching (RSBM)を提案する。
RSBMはわずか3段階のトレーニングで94%以上の成功率と92%以上の成功率を達成し、高忠実度生成ポリシーとEmbodied AIの低レイテンシ要求とのギャップを著しく狭めている。
論文 参考訳(メタデータ) (2026-04-07T10:22:27Z) - CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution [0.0]
全スライディング画像は、通常、ギガピクセルの解像度を超えるため、計算集約的な生成超解像は、日常的な展開には不実用である。
適応的な1ステップフローマッチングフレームワークであるCAFlowを導入し,各画像タイルを最も浅いネットワーク出口にルーティングする。
多臓器の病理組織学的 x4 SR では、適応的ルーティングは完全な深さで 31.72 dB PSNR と 31.84 dB を達成し、最も浅い出口は SwinIR-light よりも2.8倍少ない計算で +1.9 dB を超える。
論文 参考訳(メタデータ) (2026-03-19T05:45:58Z) - Causal Schrödinger Bridges: Constrained Optimal Transport on Structural Manifolds [1.8889920087703633]
エントロピー最適輸送(Entropic Optimal Transport)としての反ファクト推論を再構築するフレームワークであるCausal Schrdinger Bridge (CSB)を紹介する。
構造分解定理を証明し、大域的な高次元橋梁が局所的で頑健な遷移に正確に分解されることを示す。
論文 参考訳(メタデータ) (2026-02-09T11:33:12Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。