論文の概要: In harmony with gpt-oss
- arxiv url: http://arxiv.org/abs/2604.00362v1
- Date: Wed, 01 Apr 2026 01:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.782111
- Title: In harmony with gpt-oss
- Title(参考訳): gpt-oss (複数形 gpt-oss)
- Authors: Borislav Mavrin,
- Abstract要約: OpenAIが公開しているGPt-oss-20bのスコアをツールで独自に再現した人はいない。
私たちはモデルの配布ツールをリバースエンジニアリングしました。
そして、ネイティブハーネスのハーネスを構築しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No one has independently reproduced OpenAI's published scores for gpt-oss-20b with tools, because the original paper discloses neither the tools nor the agent harness. We reverse-engineered the model's in-distribution tools: when prompted without tool definitions, gpt-oss still calls tools from its training distribution with high statistical confidence -- a strong prior, not a hallucination. We then built a native harmony agent harness (https://github.com/borislavmavrin/harmonyagent.git) that encodes messages in the model's native format, bypassing the lossy Chat Completions conversion. Together, these yield the first independent reproduction of OpenAI's published scores: 60.4% on SWE Verified HIGH (published 60.7%), 53.3% MEDIUM (53.2%), and 91.7% on AIME25 with tools (90.4%).
- Abstract(参考訳): 原論文はツールもエージェントハーネスも公開していないため、OpenAIのgpt-oss-20bのスコアをツールで独自に再現した人はいない。
gpt-ossは、ツール定義がなければ、高い統計的信頼を持ってトレーニングディストリビューションからツールを呼び出します。
次に、失われたChat Completions変換をバイパスして、モデルのネイティブフォーマットでメッセージをエンコードするネイティブなハーネス(https://github.com/borislavmavrin/harmonyagent.git)を構築しました。
いずれもOpenAIが発行したスコアの60.4%(60.7%)、53.3%(53.2%)、91.7%(90.4%)である。
関連論文リスト
- Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022 [0.0]
本研究では、2022年7月に収集された1,155人のソフトウェア開発者の満足度データを分析した。
当社は、Visual Studio Code(79%の使用)が支配する、高い満足度エコシステムを報告している。
高いツールチャーンを特徴とする「実験者」セグメント(29.9%)を同定したが,満足度には有意な差は認められなかった。
論文 参考訳(メタデータ) (2026-03-06T09:01:53Z) - AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning [36.67330306977483]
大規模音声言語モデル(LALM)は知覚に優れるが、正確な音響測定を必要とする複雑な推論に苦労する。
我々は、いつ、どのツールを呼び出すかを学習する強化学習フレームワークであるAuTAgentを提案する。
論文 参考訳(メタデータ) (2026-02-14T09:12:20Z) - Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文 参考訳(メタデータ) (2025-12-29T17:12:39Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - SinaTools: Open Source Toolkit for Arabic Natural Language Processing [0.5461938536945721]
我々は、アラビア語の自然言語処理と理解のためのオープンソースのPythonパッケージであるSinaToolsを紹介した。
本稿では,SinaToolsとそのベンチマーク結果について述べる。
論文 参考訳(メタデータ) (2024-11-03T11:03:52Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。