論文の概要: You Only Need Your Transformer 25% of the Time: Meaning-First Execution for Eliminating Unnecessary Inference
- arxiv url: http://arxiv.org/abs/2601.00847v1
- Date: Mon, 29 Dec 2025 08:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.782218
- Title: You Only Need Your Transformer 25% of the Time: Meaning-First Execution for Eliminating Unnecessary Inference
- Title(参考訳): トランスフォーマーの25%だけ必要な時間:不必要な推論をなくすための最初の実行方法
- Authors: Ryan Shamim,
- Abstract要約: 本稿では,このフレームワークを実装したコントロールプレーンアーキテクチャであるMeaning-First Execution (MFEE)を紹介する。
MFEEは78.1%の実行削減を実現し、呼び出された実行に対する100%の正確なマッチ等価性を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern AI inference systems treat transformer execution as mandatory, conflating model capability with execution necessity. We reframe inference as a control-plane decision problem: determining when execution is necessary versus when correctness can be preserved through alternative pathways. We introduce Meaning-First Execution (MFEE), a control-plane architecture implementing this framework, selectively invoking transformer inference only when required. MFEE operates as a gating layer above existing stacks without modifying models, weights, or parameters. Across 1,000 diverse prompts under deterministic decoding, MFEE achieves 78.1% execution reduction while maintaining 100% exact-match equivalence for invoked executions. Comparative evaluation reveals pattern-based routers achieve at most 53.3% avoidance with correctness failures, while MFEE reaches 100% avoidance with zero failures through semantic analysis. We prove this limitation via Theorem 1: any router operating solely on finite feature maps cannot simultaneously guarantee zero false skips and positive avoidance on feature-collision pairs. These results establish execution governance as a foundational layer in ML systems infrastructure, orthogonal to model-level optimization techniques.
- Abstract(参考訳): 現代のAI推論システムは、トランスフォーマーの実行を必須として扱い、モデル能力と実行の必要性を融合させる。
我々は、制御プレーン決定問題として推論を再設定し、実行が必要か、代替経路を通じて正確性を保持することができるかを決定する。
本稿では,このフレームワークを実装した制御プレーンアーキテクチャであるMeaning-First Execution(MFEE)について紹介する。
MFEEはモデルや重み、パラメータを変更することなく、既存のスタック上のゲーティング層として動作する。
決定論的復号化の下で1,000以上の多様なプロンプトが実行され、MFEEは78.1%の実行削減を達成すると同時に、呼び出された実行に対する100%の正確なマッチ等価性を維持している。
比較評価では、パターンベースのルータは、少なくとも53.3%の精度障害回避を達成し、MFEEは意味解析によってゼロ障害回避を100%達成している。
有限特徴写像のみに作用する任意のルータは、ゼロ偽スキップと正の回避を同時に保証することはできない。
これらの結果は、モデルレベルの最適化技術と直交するMLシステムの基盤層として実行ガバナンスを確立します。
関連論文リスト
- Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文 参考訳(メタデータ) (2025-11-11T13:32:38Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm [8.405729585427226]
Chain-of-Thought(CoT)とその変種は、大規模言語モデル(LLM)の推論能力を著しく向上させた。
E2C$(Explore-Execute Chain)は、推論を2つの異なるフェーズに分離する構造化推論フレームワークである。
論文 参考訳(メタデータ) (2025-09-28T15:48:40Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。