論文の概要: From Classical to Hierarchical: benchmarks for the HTN Track of the
International Planning Competition
- arxiv url: http://arxiv.org/abs/2103.05481v1
- Date: Tue, 9 Mar 2021 15:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 16:57:26.042981
- Title: From Classical to Hierarchical: benchmarks for the HTN Track of the
International Planning Competition
- Title(参考訳): 古典から階層へ:国際計画コンペティションのHTNトラックのベンチマーク
- Authors: Damien Pellier, Humbert Fiorino
- Abstract要約: 2020年の国際計画コンペの第1階層計画トラックに提出された9つの古典的ベンチマークの概要を概説する。
ベンチマークの選択は、HTNコミュニティに送られたアンケートに基づいています。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this short paper, we outline nine classical benchmarks submitted to the
first hierarchical planning track of the International Planning competition in
2020. All of these benchmarks are based on the HDDL language. The choice of the
benchmarks was based on a questionnaire sent to the HTN community. They are the
following: Barman, Childsnack, Rover, Satellite, Blocksworld, Depots, Gripper,
and Hiking. In the rest of the paper we give a short description of these
benchmarks. All are totally ordered.
- Abstract(参考訳): 本稿では,2020年の第1回国際計画コンペティションの階層的計画トラックに提出された9つの古典的ベンチマークについて概説する。
これらのベンチマークはすべてHDDL言語に基づいている。
ベンチマークの選択は、HTNコミュニティに送られたアンケートに基づいています。
バーマン、チャイルドスナック、ローバー、サテライト、ブロックワールド、デポ、グリッパー、ハイキングである。
残りの論文では、これらのベンチマークについて簡単に説明します。
すべて完全注文です。
関連論文リスト
- TextClass Benchmark: A Continuous Elo Rating of LLMs in Social Sciences [0.0]
TextClass Benchmarkプロジェクトは、テキスト分類タスクのためのLLMと変換器の包括的で公平で動的な評価を提供することを目的としている。
この評価は、NLPやテキスト・アズ・データ・アプローチに関わる社会科学の分野における様々な領域や言語にまたがる。
リーダーボードは、カスタマイズされたEloレーティングシステムを使用して、パフォーマンス指標と相対ランクを示す。
論文 参考訳(メタデータ) (2024-11-30T17:09:49Z) - Can we hop in general? A discussion of benchmark selection and design using the Hopper environment [12.18012293738896]
我々は、強化学習におけるベンチマークは科学の分野として扱う必要があると論じている。
ケーススタディでは、標準的なベンチマークスイートの選択が、アルゴリズムのパフォーマンスの判断方法を大きく変える可能性があることを示しています。
論文 参考訳(メタデータ) (2024-10-11T14:47:22Z) - Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - Learn to Categorize or Categorize to Learn? Self-Coding for Generalized
Category Discovery [49.1865089933055]
テスト時に未知のカテゴリを発見できる新しい,効率的かつ自己管理手法を提案する。
このアプローチの健全な特徴は、個々のデータインスタンスに最小長のカテゴリコードの割り当てである。
試行錯誤による評価は, 提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2023-10-30T17:45:32Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Overview of the TREC 2020 Fair Ranking Track [64.16623297717642]
本稿は、NIST TREC 2020 Fair Ranking trackの概要を示す。
フェア・ランキング・トラックの中心的な目標は、様々な作家グループに公正な露出を提供することである。
論文 参考訳(メタデータ) (2021-08-11T10:22:05Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。