論文の概要: Humains-Junior: A 3.8B Language Model Achieving GPT-4o-Level Factual Accuracy by Directed Exoskeleton Reasoning
- arxiv url: http://arxiv.org/abs/2510.25933v1
- Date: Wed, 29 Oct 2025 20:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.55856
- Title: Humains-Junior: A 3.8B Language Model Achieving GPT-4o-Level Factual Accuracy by Directed Exoskeleton Reasoning
- Title(参考訳): Humains-Junior: Directed Exoskeleton Reasoning による GPT-4o-Level Factual Accuracy を実現する3.8B言語モデル
- Authors: Nissan Yaron, Dan Bystritsky, Ben-Etzion Yaron,
- Abstract要約: Humans-Juniorは3.8Bモデルで、FACTS GroundingのパブリックサブセットのGPT-4oと$pm 5$ ppで一致している。
我々のアプローチは、最小指向の"Exoskeleton Reasoning"足場と、プロトコルコンプライアンスを教える振る舞いの微調整を組み合わせたものです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Humans-Junior, a 3.8B model that matches GPT-4o on the FACTS Grounding public subset within a $\pm 5$ pp equivalence margin. Results. On Q1--Q500 under identical judges, GPT-4o scores 73.5% (95% CI 69.5--77.2) and Humans-Junior 72.7% (95% CI 68.7--76.5); the paired difference is 0.8 pp (bootstrap 95% CI $-3.1$ to $+4.7$; permutation $p = 0.72$; Cohen's $d = 0.023$). TOST establishes equivalence at $\pm 5$ pp (not at $\pm 3$ pp). When purchased as managed APIs, Humans-Junior's base model (Phi-3.5-mini-instruct) is $\approx 19\times$ less expensive than GPT-4o on Microsoft AI Foundry pricing; self-hosted or edge deployments can drive incremental inference cost toward zero. Measured vs estimated pricing sources are tabulated in Appendix E. Method. Our approach combines minimal directed "Exoskeleton Reasoning" scaffolds with behavioral fine-tuning that teaches protocol compliance (epistemic discipline) rather than domain answers. Fine-tuning alone adds little; combined, they synergize (+17.7 pp, $p < 0.001$) and reduce variance ($\approx 25\%$). In prompt-only settings on frontier models (Q1--Q100; non-comparable), directed reasoning improved GPT-4o by +11.8 pp to 85.3% and Gemini-2.5-Pro by +5.0 pp to 93.3% (baseline 88.3%, $n = 100$); see Section~5. TL;DR. A 3.8B model achieves GPT-4o-level FACTS accuracy (equivalent within $\pm 5$ pp on Q1--Q500). Cloud pricing shows $\approx 19\times$ lower cost versus GPT-4o, and self-hosted/edge deployments can approach zero marginal cost. Pricing sources are listed in Appendix E. Frontier prompt-only gains (Q1--Q100; non-comparable) and optimized-prompt exploratory results under earlier judges are summarized in Appendix F. Keywords: Small Language Models, Factual Grounding, Directed Reasoning, Fine-Tuning, Model Alignment, Cost-Efficient AI
- Abstract(参考訳): 我々は3.8BモデルであるHumans-Juniorを紹介した。これはGPT-4oとFACTS Groundingのパブリックサブセットとを、$\pm 5$ ppの等価マージン内で一致させる。
結果。
Q1-Q500では、GPT-4oのスコアは73.5%(95% CI 69.5--77.2)、Humans-Junior 72.7%(95% CI 68.7-76.5)、対差は0.8 pp(ブースストラップ95% CI $-3.1$から+4.7$、置換$p = 0.72$、コーエンの$d = 0.023$)である。
TOSTは$\pm 5$ pp($\pm 3$ pp ではない)で等価性を確立する。
マネージドAPIとして購入した場合、Humans-Juniorのベースモデル(Phi-3.5-mini-instruct)は、Microsoft AI Foundryの価格でGPT-4oよりも安い$\approx 19\timesである。
Appendix E. Methodでは、測定された価格ソースと推定された価格ソースを集計している。
アプローチでは、最小指向の"Exoskeleton Reasoning"足場と、ドメインの回答よりもプロトコルのコンプライアンス( atistemic discipline)を教える振る舞いの微調整を組み合わせています。
微調整だけではほとんど加わらず、相乗効果(+17.7 pp, $p < 0.001$)と分散(\approx 25\%$)を減少させる。
フロンティアモデル(Q1--Q100、非互換)のプロンプトオンリー設定では、GPT-4oを+11.8ppから85.3%改善し、Gemini-2.5-Proを+5.0ppから93.3%改善した(ベースライン88.3%、$n = 100$)。
TL;DR。
3.8BモデルはGPT-4oレベルのFACTS精度(Q1-Q500の$\pm 5$ pp以内)を達成する。
クラウドの料金は、GPT-4oに比べて$$$\approx 19\times$安く、セルフホスト/エッジデプロイメントはゼロマージンコストにアプローチできる。
Appendix F. Keywords: Small Language Models, Factual Grounding, Directed Reasoning, Fine-Tuning, Model Alignment, Cost-Efficient AI
関連論文リスト
- A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文 参考訳(メタデータ) (2025-06-02T15:32:36Z) - ELECTRA and GPT-4o: Cost-Effective Partners for Sentiment Analysis [0.0]
本稿では,3方向感情分類のためのELECTRAとGPT-4oの協調的アプローチについて検討する。
我々はStanford Sentiment Treebank(SST)とDynaSentのレビューを組み合わせて、4つのモデルを微調整した。
この結果から,微調整エンコーダの予測による拡張プロンプトが性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-12-29T05:29:52Z) - Detect Llama -- Finding Vulnerabilities in Smart Contracts using Large Language Models [27.675558033502565]
我々は、スマートコントラクト脆弱性検出において、GPT-4より優れたオープンソースモデルを微調整する。
バイナリ分類(つまり、このスマートコントラクトは脆弱か?)では、GPT-3.5FTとTect Llama-Foundationという2つの最高のパフォーマンスモデルがF1スコアを達成しています。
GPT-3.5FT と Detect Llama - Foundation はいずれも GPT-4 と GPT-4 Turbo を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-12T03:33:13Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course [0.0]
そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。
盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
論文 参考訳(メタデータ) (2024-03-25T17:41:02Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。