論文の概要: Rollout Cards: A Reproducibility Standard for Agent Research
- arxiv url: http://arxiv.org/abs/2605.12131v1
- Date: Tue, 12 May 2026 13:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.891139
- Title: Rollout Cards: A Reproducibility Standard for Agent Research
- Title(参考訳): ロールアウトカード:エージェント研究における再現性基準
- Authors: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht,
- Abstract要約: 論文は、レポートされたスコアでシステムを比較し、それらのスコアの背後にロールアウトレコードを残すことは、検査が困難である。
エージェント的なタスクでは、評価がロールアウトの異なる部分を選択したり、異なるレポートルールを適用する場合、同じ振る舞いが異なるレポートスコアを受け取ることができるため、これが重要です。
50の人気のあるトレーニングと評価レポジトリの構造化監査では、ヘッドラインスコアとともに、実行が失敗、エラー、あるいはスキップされた回数を報告していないことが判明した。
- 参考スコア(独自算出の注目度): 15.381365113892848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility problems that have long affected machine learning and reinforcement learning are now surfacing in agent research: papers compare systems by reported scores while leaving the rollout records behind those scores difficult to inspect. For agentic tasks, this matters because the same behaviour can receive different reported scores when evaluations select different parts of a rollout or apply different reporting rules. In a structured audit of 50 popular training and evaluation repositories, we find that none report how many runs failed, errored, or were skipped alongside headline scores. We also document 37 cases where reporting rules can change task-success rates, cost/token accounting, or timing measurements for fixed evidence, sometimes dramatically. We treat rollout records, not reported scores, as the unit of reproducibility for agent research. We introduce rollout cards: publication bundles that preserve the rollout record and declare the views, reporting rules, and drops manifests behind reported scores. We validate rollout cards in two settings. First, four partial public releases in tool safety, multi-agent systems, theorem proving, and search let us compute analyses their original reports did not include. Second, re-grading preserved benchmark outputs across short-answer, code-generation, and tool-use tasks shows that changing only the reporting rule can change reported scores by 20.9 absolute percentage points and, in some cases, invert rankings of frontier models. We release a reference implementation integrated into Ergon, an open-source reinforcement learning gym, and publicly publish Ergon-produced rollout-card exports for benchmarks spanning tool use, software engineering, web interaction, multi-agent coordination, safety, and search to support future research.
- Abstract(参考訳): 長年機械学習と強化学習に影響を与えてきた再現性問題は、エージェント研究で注目されている。
エージェント的なタスクでは、評価がロールアウトの異なる部分を選択したり、異なるレポートルールを適用する場合、同じ振る舞いが異なるレポートスコアを受け取ることができるため、これが重要です。
50の人気のあるトレーニングと評価レポジトリの構造化監査では、ヘッドラインスコアとともに、実行が失敗、エラー、あるいはスキップされた回数を報告していないことが判明した。
また、報告ルールがタスク成功率、コスト/トーケン会計、あるいは固定された証拠のタイミング測定を劇的に変更できる37のケースを文書化します。
エージェント研究における再現性の単位として,報告されたスコアではなくロールアウトレコードを扱います。
ロールアウト記録を保存し、ビューを宣言し、ルールを報告し、報告されたスコアの背後にマニフェストをドロップするパブリッシュバンドル。
ロールアウトカードを2つの設定で検証します。
まず、ツール安全性、マルチエージェントシステム、定理証明、検索の4つの部分的な公開リリースにより、元のレポートには含まれていない解析を計算できるようになりました。
第二に、短い回答、コード生成、ツール使用タスクにまたがって保存されたベンチマーク出力を再グレードすることは、レポートルールのみを変更することで、レポートのスコアを20.9絶対パーセンテージポイント、場合によってはフロンティアモデルのランクを反転させることができることを示している。
我々は、オープンソースの強化学習ジムであるErgonに組み込まれたリファレンス実装をリリースし、ツールの使用、ソフトウェアエンジニアリング、Webインタラクション、マルチエージェントコーディネーション、安全性、将来の研究をサポートするための検索にまたがるベンチマーク用のErgon制作のロールアウトカードエクスポートを公開しました。
関連論文リスト
- Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation [8.049844623361725]
インタラクティブエージェントベンチマークは、結果チェックを通じてエージェントの実行をバイナリ結果にマッピングする。
これらのチェックは、表面レベル信号に依存するか、エージェントの実際のアクションパスをキャプチャできない。
既存のベンチマークに対して、結果エビデンスレポート層を導入します。
論文 参考訳(メタデータ) (2026-05-11T12:20:15Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.158439933515131]
我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文 参考訳(メタデータ) (2025-09-23T10:06:58Z) - Automated Duplicate Bug Report Detection in Large Open Bug Repositories [3.481985817302898]
大規模なオープンソースプロジェクトのユーザやコントリビュータは,問題追跡システムにソフトウェア欠陥や拡張要求(バグレポートとして知られる)を報告している。
オープンバグレポジトリにおける重複バグレポートを自動的に検出する機械学習手法に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T01:55:54Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Automatic Issue Classifier: A Transfer Learning Framework for
Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。
本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文 参考訳(メタデータ) (2022-02-12T21:43:08Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。