Fugu-MT 論文翻訳(概要): The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine Learning

論文の概要: The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine Learning

arxiv url: http://arxiv.org/abs/2207.10218v1
Date: Wed, 20 Jul 2022 22:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-22 13:25:06.525265
Title: The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine Learning
Title（参考訳）: The Game of Hidden Rules: 機械学習の新しいベンチマークチャレンジ
Authors: Eric Pulick, Shubham Bharti, Yiding Chen, Vladimir Menkov, Yonatan Mintz, Paul Kantor, Vicki M. Bier
Abstract要約: 機械学習(ML)課題のための新しいベンチマーク環境を導入する。タスク要素が実践上の困難にどのように影響するかを正確に調べることができる。ゲーム・オブ・ハイデン・ルールズ(GOHR)と呼ばれる「ボードクリーニングゲーム」として学習タスクをフレーム化するツールである。
参考スコア（独自算出の注目度）: 3.1864456096282696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As machine learning (ML) is more tightly woven into society, it is imperative that we better characterize ML's strengths and limitations if we are to employ it responsibly. Existing benchmark environments for ML, such as board and video games, offer well-defined benchmarks for progress, but constituent tasks are often complex, and it is frequently unclear how task characteristics contribute to overall difficulty for the machine learner. Likewise, without a systematic assessment of how task characteristics influence difficulty, it is challenging to draw meaningful connections between performance in different benchmark environments. We introduce a novel benchmark environment that offers an enormous range of ML challenges and enables precise examination of how task elements influence practical difficulty. The tool frames learning tasks as a "board-clearing game," which we call the Game of Hidden Rules (GOHR). The environment comprises an expressive rule language and a captive server environment that can be installed locally. We propose a set of benchmark rule-learning tasks and plan to support a performance leader-board for researchers interested in attempting to learn our rules. GOHR complements existing environments by allowing fine, controlled modifications to tasks, enabling experimenters to better understand how each facet of a given learning task contributes to its practical difficulty for an arbitrary ML algorithm.
Abstract（参考訳）: 機械学習(ML)が社会に強く織り込まれているため、責任を負うならば、MLの強みや限界を適切に特徴づけることが不可欠である。ボードゲームやビデオゲームなどの既存のMLのベンチマーク環境は、進捗のベンチマークを適切に定義しているが、構成タスクはしばしば複雑であり、タスク特性がマシン学習者の全体的な困難にどのように寄与するかはよく分かっていない。同様に、タスク特性が難易度にどう影響するかの体系的な評価がないため、異なるベンチマーク環境におけるパフォーマンス間の有意義な関連を引き出すのは難しい。機械学習の課題を幅広く抱える新しいベンチマーク環境を導入し,タスク要素が実践的困難にどのように影響するかを正確に検証する。このツールは、学習タスクを「ボードクリーニングゲーム」("board-clearing game")と呼び、ゲーム・オブ・ハイデン・ルール(GOHR)と呼ぶ。環境は、表現型ルール言語と、ローカルにインストール可能なキャプチャ型サーバ環境とを含む。我々は,ルール学習タスクのベンチマークを提案し,ルールの学習に関心のある研究者のために,パフォーマンスリーダボードをサポートする計画を立てる。 GOHRはタスクの細かい制御された修正を可能にすることで既存の環境を補完し、実験者は与えられた学習タスクの各面が任意のMLアルゴリズムの実践的困難にどのように貢献するかをよりよく理解することができる。

関連論文リスト

Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-28T01:25:37Z)
Benchmarking and Understanding Compositional Relational Reasoning of LLMs [1.915591735124465]
我々はまず、Generalized Associative Recall (GAR)と呼ばれる新しい合成ベンチマークを提案する。評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。次に、属性パッチを用いて、Vicuna-33Bで再利用されたコア回路の様々なタスクと重要な注意点のセットを発見する。
論文参考訳（メタデータ） (2024-12-17T12:10:38Z)
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:54:32Z)
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-30T22:31:19Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文参考訳（メタデータ） (2024-05-22T08:38:26Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。 ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文参考訳（メタデータ） (2023-11-15T14:26:30Z)
ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource Allocation [1.6058099298620425]
ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。様々な難易度の問題をインスタンス化するように構成することもできる。
論文参考訳（メタデータ） (2023-07-06T13:44:29Z)
Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2022-02-01T07:51:24Z)
Addressing practical challenges in Active Learning via a hybrid query strategy [1.607440473560015]
本稿では、コールドスタート、オラクルの不確実性、Active Learnerの性能評価という3つの実践的な課題を同時に解決するハイブリッドクエリ戦略ベースのALフレームワークを提案する。提案するフレームワークの堅牢性は,3つの異なる環境と産業環境で評価される。
論文参考訳（メタデータ） (2021-10-07T20:38:14Z)
Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文参考訳（メタデータ） (2021-05-08T22:26:52Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。