論文の概要: The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine
Learning
- arxiv url: http://arxiv.org/abs/2207.10218v1
- Date: Wed, 20 Jul 2022 22:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:25:06.525265
- Title: The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine
Learning
- Title(参考訳): The Game of Hidden Rules: 機械学習の新しいベンチマークチャレンジ
- Authors: Eric Pulick, Shubham Bharti, Yiding Chen, Vladimir Menkov, Yonatan
Mintz, Paul Kantor, Vicki M. Bier
- Abstract要約: 機械学習(ML)課題のための新しいベンチマーク環境を導入する。
タスク要素が実践上の困難にどのように影響するかを正確に調べることができる。
ゲーム・オブ・ハイデン・ルールズ(GOHR)と呼ばれる「ボードクリーニングゲーム」として学習タスクをフレーム化するツールである。
- 参考スコア(独自算出の注目度): 3.1864456096282696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning (ML) is more tightly woven into society, it is imperative
that we better characterize ML's strengths and limitations if we are to employ
it responsibly. Existing benchmark environments for ML, such as board and video
games, offer well-defined benchmarks for progress, but constituent tasks are
often complex, and it is frequently unclear how task characteristics contribute
to overall difficulty for the machine learner. Likewise, without a systematic
assessment of how task characteristics influence difficulty, it is challenging
to draw meaningful connections between performance in different benchmark
environments. We introduce a novel benchmark environment that offers an
enormous range of ML challenges and enables precise examination of how task
elements influence practical difficulty. The tool frames learning tasks as a
"board-clearing game," which we call the Game of Hidden Rules (GOHR). The
environment comprises an expressive rule language and a captive server
environment that can be installed locally. We propose a set of benchmark
rule-learning tasks and plan to support a performance leader-board for
researchers interested in attempting to learn our rules. GOHR complements
existing environments by allowing fine, controlled modifications to tasks,
enabling experimenters to better understand how each facet of a given learning
task contributes to its practical difficulty for an arbitrary ML algorithm.
- Abstract(参考訳): 機械学習(ML)が社会に強く織り込まれているため、責任を負うならば、MLの強みや限界を適切に特徴づけることが不可欠である。
ボードゲームやビデオゲームなどの既存のMLのベンチマーク環境は、進捗のベンチマークを適切に定義しているが、構成タスクはしばしば複雑であり、タスク特性がマシン学習者の全体的な困難にどのように寄与するかはよく分かっていない。
同様に、タスク特性が難易度にどう影響するかの体系的な評価がないため、異なるベンチマーク環境におけるパフォーマンス間の有意義な関連を引き出すのは難しい。
機械学習の課題を幅広く抱える新しいベンチマーク環境を導入し,タスク要素が実践的困難にどのように影響するかを正確に検証する。
このツールは、学習タスクを「ボードクリーニングゲーム」("board-clearing game")と呼び、ゲーム・オブ・ハイデン・ルール(GOHR)と呼ぶ。
環境は、表現型ルール言語と、ローカルにインストール可能なキャプチャ型サーバ環境とを含む。
我々は,ルール学習タスクのベンチマークを提案し,ルールの学習に関心のある研究者のために,パフォーマンスリーダボードをサポートする計画を立てる。
GOHRはタスクの細かい制御された修正を可能にすることで既存の環境を補完し、実験者は与えられた学習タスクの各面が任意のMLアルゴリズムの実践的困難にどのように貢献するかをよりよく理解することができる。
関連論文リスト
- BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation [1.6058099298620425]
ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。
提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。
様々な難易度の問題をインスタンス化するように構成することもできる。
論文 参考訳(メタデータ) (2023-07-06T13:44:29Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Addressing practical challenges in Active Learning via a hybrid query
strategy [1.607440473560015]
本稿では、コールドスタート、オラクルの不確実性、Active Learnerの性能評価という3つの実践的な課題を同時に解決するハイブリッドクエリ戦略ベースのALフレームワークを提案する。
提案するフレームワークの堅牢性は,3つの異なる環境と産業環境で評価される。
論文 参考訳(メタデータ) (2021-10-07T20:38:14Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。