論文の概要: EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge
- arxiv url: http://arxiv.org/abs/2510.26550v1
- Date: Thu, 30 Oct 2025 14:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.861739
- Title: EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge
- Title(参考訳): EdgeRunner 20B: Edge上で実行中のGPT-5による軍事タスクパーリティー
- Authors: Jack FitzGerald, Aristotelis Lazaridis, Dylan Bates, Aman Sharma, Jonnathan Castillo, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Luke Kerbs, Vincent Lu, Joseph Madigan, Jeremy McLaurin, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman,
- Abstract要約: We present EdgeRunner 20B, a fine-tuned version of GPT-oss-20b optimized for military task。
また、(a)戦闘用アーム、(b)戦闘医療、(c)サイバー操作、(d)ミルベンチ5kという4つの新しいテストセットも提示した。
これらの軍事試験セットでは、EdgeRunner 20B は GPT-5 タスクのパフォーマンスと95%以上の統計的意味を持つ。
- 参考スコア(独自算出の注目度): 3.4118797601232234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EdgeRunner 20B, a fine-tuned version of gpt-oss-20b optimized for military tasks. EdgeRunner 20B was trained on 1.6M high-quality records curated from military documentation and websites. We also present four new tests sets: (a) combat arms, (b) combat medic, (c) cyber operations, and (d) mil-bench-5k (general military knowledge). On these military test sets, EdgeRunner 20B matches or exceeds GPT-5 task performance with 95%+ statistical significance, except for the high reasoning setting on the combat medic test set and the low reasoning setting on the mil-bench-5k test set. Versus gpt-oss-20b, there is no statistically-significant regression on general-purpose benchmarks like ARC-C, GPQA Diamond, GSM8k, IFEval, MMLU Pro, or TruthfulQA, except for GSM8k in the low reasoning setting. We also present analyses on hyperparameter settings, cost, and throughput. These findings show that small, locally-hosted models are ideal solutions for data-sensitive operations such as in the military domain, allowing for deployment in air-gapped edge devices.
- Abstract(参考訳): We present EdgeRunner 20B, a fine-tuned version of gpt-oss-20b optimized for military task。
EdgeRunner 20Bは、軍事文書やウェブサイトから収集された1.6万の高品質なレコードでトレーニングされた。
4つの新しいテストセットも提示します。
a) 戦闘用武器。
(b)戦闘医
(c)サイバー操作、そして
(d)ミルベンチ5k(一般軍事知識)
これらの軍事試験セットでは、EdgeRunner 20B は GPT-5 タスクのパフォーマンスを95%以上の統計的意義で一致または超過するが、戦闘メディカルテストセットの高い推論セットとミルベンチ5kテストセットの低い推論セットは例外である。
Versus gpt-oss-20b, ARC-C, GPQA Diamond, GSM8k, IFEval, MMLU Pro, TruthfulQAといった汎用ベンチマークには統計的に重要な回帰はない。
また、ハイパーパラメータの設定、コスト、スループットについて分析する。
これらの結果は、小型でローカルにホストされたモデルが、軍事領域のようなデータに敏感な操作のための理想的なソリューションであり、空装エッジデバイスへの展開を可能にすることを示している。
関連論文リスト
- Enhancing Speech Emotion Recognition via Fine-Tuning Pre-Trained Models and Hyper-Parameter Optimisation [3.313347968067735]
本稿では,事前学習された表現とHPO戦略を用いた音声感情認識のためのワークフローを提案する。
実験は、32GBのRAMを持つ8つのCPUコアで動作する。
言語間の一般化のために、EmoDBで訓練されたHPOチューニングモデルでは、CREMA-Dでは0.25、RAVDESSでは0.26のゼロショット精度が向上している。
論文 参考訳(メタデータ) (2025-10-08T14:20:43Z) - RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks [18.75982610851903]
適応的強靭性半径(Adaptive robustness radius)は、適応的敵に対する透かし抵抗性を定量化する公式な計量である。
RLCrackerは強化学習(RL)に基づく適応攻撃であり,意味的忠実さを維持しながら透かしを消去する。
その結果、適応攻撃は広範囲に効果があり、現在のウォーターマーク防御に根本的な脅威をもたらすことが確認された。
論文 参考訳(メタデータ) (2025-09-25T09:08:02Z) - Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge [8.680958290253914]
本稿では,動的テストセット上での検索強化生成システム(RAG)の評価を行うLiveRAG Challenge 2025を提案する。
我々の最後のハイブリッドアプローチはスパース (BM25) と高密度 (E5) の検索手法を組み合わせたものである。
RankLLaMA を用いたニューラルリランクでは MAP は0.523 から 0.797 に向上するが,計算コストは禁忌である。
論文 参考訳(メタデータ) (2025-06-27T21:20:43Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [231.11339402237903]
反応前に思考を通して推論できるSeed1.5-Thinkingを紹介した。
Seed1.5-ThinkingはAIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成した。
これは、STEMとコーディングにおいて優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-04-10T17:10:51Z) - Constrained Adaptive Attack: Effective Adversarial Attack Against Deep Neural Networks for Tabular Data [12.641656743760874]
そこで本研究では,適応機構による既存の勾配攻撃の障害を克服する勾配攻撃を提案する。
また、CAPGD攻撃と最高の検索ベース攻撃であるMOEVAを組み合わせた効率的な回避攻撃であるCAAを設計する。
私たちの実証研究は、CAAが既存の攻撃を20以上の設定で17で上回っていることを実証しています。
論文 参考訳(メタデータ) (2024-06-02T15:26:52Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。