論文の概要: Meta-Harness: End-to-End Optimization of Model Harnesses
- arxiv url: http://arxiv.org/abs/2603.28052v1
- Date: Mon, 30 Mar 2026 05:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.243593
- Title: Meta-Harness: End-to-End Optimization of Model Harnesses
- Title(参考訳): メタハーネス:モデルハーネスのエンドツーエンド最適化
- Authors: Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn,
- Abstract要約: 本稿では,大規模言語モデル(LLM)アプリケーションのためのコード検索を行う外部ループシステムであるMeta-Harnessを紹介する。
オンラインテキスト分類では、Meta-Harnessは4倍少ないコンテキストトークンを使用しながら、最先端のコンテキスト管理システムを7.7ポイント改善する。
検索強化数学推論では、200 IMOレベルの問題の精度を5つの保留モデルの平均4.7ポイント向上する。
- 参考スコア(独自算出の注目度): 52.31507076660471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model. Yet harnesses are still designed largely by hand, and existing text optimizers are poorly matched to this setting because they compress feedback too aggressively. We introduce Meta-Harness, an outer-loop system that searches over harness code for LLM applications. It uses an agentic proposer that accesses the source code, scores, and execution traces of all prior candidates through a filesystem. On online text classification, Meta-Harness improves over a state-of-the-art context management system by 7.7 points while using 4x fewer context tokens. On retrieval-augmented math reasoning, a single discovered harness improves accuracy on 200 IMO-level problems by 4.7 points on average across five held-out models. On agentic coding, discovered harnesses surpass the best hand-engineered baselines on TerminalBench-2. Together, these results show that richer access to prior experience can enable automated harness engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)システムの性能は、モデルウェイトだけでなく、モデルに格納、検索、提示する情報を決定するコードにも依存する。
しかし、ハーネスは現在でも主に手作業で設計されており、既存のテキストオプティマイザはこの設定とよく一致していない。
本稿では,LLMアプリケーション用のコード検索を行う外部ループシステムであるMeta-Harnessを紹介する。
エージェントプロジェクタを使用して、ソースコード、スコア、実行トレースにファイルシステムを通じてアクセスする。
オンラインテキスト分類では、Meta-Harnessは4倍少ないコンテキストトークンを使用しながら、最先端のコンテキスト管理システムを7.7ポイント改善する。
検索強化数学推論では、200 IMOレベルの問題の精度を5つの保留モデルの平均4.7ポイント向上する。
エージェントコーディングでは、発見されたハーネスは、ターミナルベンチ-2の最高の手動ベースラインを超えた。
これらの結果から、事前体験へのリッチなアクセスにより、自動化されたハーネスエンジニアリングが可能になることが示されている。
関連論文リスト
- STELLAR: A Search-Based Testing Framework for Large Language Model Applications [1.0125319485475452]
LLM(Large Language Model)ベースのアプリケーションは、顧客サービス、教育、モビリティなど、さまざまな領域に展開されている。
これらのシステムは不正確、虚偽、有害な応答をしがちであり、その巨大で高次元の入力空間は、特に系統的なテストが困難である。
本稿では,LLMベースのアプリケーションを対象とした自動検索ベースのテストフレームワークSTELLARについて述べる。
論文 参考訳(メタデータ) (2026-01-01T22:30:15Z) - Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。
APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-29T08:13:54Z) - Reverse Engineering User Stories from Code using Large Language Models [19.450989646157716]
大規模言語モデル(LLM)がソースコードから直接ユーザストーリーを復元できるかどうかを検討する。
我々は6つのプロンプト戦略にまたがる5つの最先端LCMを評価した。
その結果,F1スコアは平均で最大200 NLOCのコードに対して0.8であることがわかった。
論文 参考訳(メタデータ) (2025-09-23T21:23:37Z) - Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [44.9422305001193]
コード検索はコードの再利用に不可欠であり、開発者は関連コードスニペットを効率的に見つけることができる。
強力なデコーダのみの大規模言語モデル(LLM)は多くのコードインテリジェンスタスクに革命をもたらした。
本稿では,11個のデコーダのみのLCMのシステム評価を行い,その性能をゼロショットと微調整で解析する。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。