Fugu-MT 論文翻訳(概要): What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema

論文の概要: What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema

arxiv url: http://arxiv.org/abs/2605.21404v1
Date: Wed, 20 May 2026 17:02:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.798233
Title: What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema
Title（参考訳）: LLMエージェントベンチマーク12の論文がテーマについて語る:パイロット監査とオープンスコーリングスキーマ
Authors: Mahdi Naser Moghadasi, Faezeh Ghaderi,
Abstract要約: 筆者らは、よく知られた12のLSMエージェントベンチマーク論文を読み、各論文が実際にどのように評価されたか、寸法によって記録した。私たちは、小さな監査スキーマを設計しました(5つのフィールド:ベンチマークアイデンティティ、ハーネス仕様、推論設定、コストレポート、障害の分解)。我々はエージェントランの開示を正当性ではなくスコア付けし、開示が信頼できる結果を意味するという主張をしない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We read twelve well-known LLM agent benchmark papers and recorded, dimension by dimension, what each paper actually says about how its evaluation was run. The motivation came from a familiar frustration: two papers will report results on the same benchmark with the same model name and disagree, and you cannot tell why -- the scaffold, the sampling settings, the subset, or the evaluator version. In many cases the published artifact does not let you answer. This paper is an implementation report on the attempt. We designed a small audit schema (five fields: benchmark identity, harness specification, inference settings, cost reporting, failure breakdown), wrote a scoring codebook with the boundary cases we hit during pilot scoring, applied it to twelve canonical papers (eight agent, four classical static), and recorded what we saw. We score the disclosure of an agent run, not its correctness, and make no claim that disclosure implies a trustworthy result. The mean audit score across the eight agent-benchmark papers is 0.38 (out of 1.0), and across the four classical static benchmarks 0.66; the largest gap is on cost (none of the eight agent benchmark papers disclose inference cost in any form) and on harness specification (none fully disclose a content-addressed container image of the evaluation environment). We release the schema as a JSON Schema file, the codebook as a Markdown document, and the raw scoring sheet as a CSV. The scoring was performed by a single auditor in one pass; a multi-rater audit is the natural next step, and we discuss what we think it would change.
Abstract（参考訳）: 筆者らは、よく知られた12のLSMエージェントベンチマーク論文を読み、各論文が実際にどのように評価されたか、寸法によって記録した。 2つの論文は、同じモデル名で同じベンチマークで結果を報告し、不一致する。なぜ -- 足場、サンプリング設定、サブセット、評価器バージョン -- なのかは分からない。多くの場合、公開されたアーティファクトは答えられません。本論文は,本試みの実施報告である。私たちは、小さな監査スキーマ(5つのフィールド:ベンチマークアイデンティティ、ハーネス仕様、推論設定、コストレポート、障害の分解)を設計し、パイロットスコア中にヒットした境界ケースを備えたスコアコードブックを作成し、それを12の標準文書(エージェント8つ、古典的静的4つ)に適用し、私たちが見たものを記録しました。我々はエージェントランの開示を正当性ではなくスコア付けし、開示が信頼できる結果を意味するという主張をしない。エージェントベンチマークの8つの論文の平均監査スコアは0.38(1.0点中)で、4つの古典的な静的ベンチマークの0.66点中、最大のギャップはコスト(エージェントベンチマークの8つのうちの1つがいかなる形でも推論コストを開示していない)とハーネス仕様(評価環境のコンテンツ適応コンテナイメージを完全に開示していない)である。スキーマをJSONスキーマファイル、Markdownドキュメントとしてのコードブック、CSVとしての生スコアシートとしてリリースします。スコアは1回のパスで1人の監査官によって行われ、マルチレータ監査は次の自然なステップである。

関連論文リスト

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents [0.025718125188898048]
本研究では、6つの行動軸に対して15個のエージェントベンチマークをベンチマーク・カバレッジ・監査マッピングする。方法論を実証するために、両方のプロンプトモードの下で、小さな固定8モデルセットを実行しました。明示的なラベルメニューの取り外しは、すべてのモデルの軌道精度を14-40ppから0.54-0.62フロアに下げる。
論文参考訳（メタデータ） (2026-05-19T22:05:12Z)
RAPT: Retrieval-Augmented Post-hoc Thresholding for Multi-Label Classification [1.2599533416395765]
本稿では、RAPTという、デプロイメント指向の検索強化スコア閾値ラッパーを提案する。 RAPTは、類似性検索のための文書表現とラベルの信頼度スコアのモデルに依存しないラッパーである。工業環境では、RAPTはメートル法学習者による最高の予測性能を達成し、0.87マクロF1に達した。
論文参考訳（メタデータ） (2026-05-15T18:31:04Z)
Rollout Cards: A Reproducibility Standard for Agent Research [15.381365113892848]
論文は、レポートされたスコアでシステムを比較し、それらのスコアの背後にロールアウトレコードを残すことは、検査が困難である。エージェント的なタスクでは、評価がロールアウトの異なる部分を選択したり、異なるレポートルールを適用する場合、同じ振る舞いが異なるレポートスコアを受け取ることができるため、これが重要です。 50の人気のあるトレーニングと評価レポジトリの構造化監査では、ヘッドラインスコアとともに、実行が失敗、エラー、あるいはスキップされた回数を報告していないことが判明した。
論文参考訳（メタデータ） (2026-05-12T13:54:31Z)
How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。 HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文参考訳（メタデータ） (2026-05-08T09:30:31Z)
Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文参考訳（メタデータ） (2026-05-06T03:28:30Z)
SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文参考訳（メタデータ） (2026-01-19T23:37:10Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文参考訳（メタデータ） (2025-05-09T04:40:11Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。