論文の概要: Quantifying Generalisation in Imitation Learning
- arxiv url: http://arxiv.org/abs/2509.24784v1
- Date: Mon, 29 Sep 2025 13:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.015056
- Title: Quantifying Generalisation in Imitation Learning
- Title(参考訳): 模倣学習における一般化の定量化
- Authors: Nathan Gavenski, Odinaldo Rodrigues,
- Abstract要約: Labyrinthは、構造、開始と目標位置、タスクの複雑さを正確に制御し、一般化をテストするために設計されたベンチマーク環境である。
離散的で完全に観測可能な状態空間と既知の最適な行動を提供し、解釈可能性ときめ細かい評価をサポートする。
- 参考スコア(独自算出の注目度): 1.5985100711159579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning benchmarks often lack sufficient variation between training and evaluation, limiting meaningful generalisation assessment. We introduce Labyrinth, a benchmarking environment designed to test generalisation with precise control over structure, start and goal positions, and task complexity. It enables verifiably distinct training, evaluation, and test settings. Labyrinth provides a discrete, fully observable state space and known optimal actions, supporting interpretability and fine-grained evaluation. Its flexible setup allows targeted testing of generalisation factors and includes variants like partial observability, key-and-door tasks, and ice-floor hazards. By enabling controlled, reproducible experiments, Labyrinth advances the evaluation of generalisation in imitation learning and provides a valuable tool for developing more robust agents.
- Abstract(参考訳): 模倣学習ベンチマークは、トレーニングと評価の間に十分なばらつきがなく、意味のある一般化評価を制限することが多い。
ラビリンス(Labyrinth)は、構造、開始位置、目標位置、タスクの複雑さを正確に制御し、一般化をテストするためのベンチマーク環境である。
トレーニング、評価、テストの設定を確実に区別できる。
ラビリントは離散的で完全に観測可能な状態空間と既知の最適な行動を提供し、解釈可能性ときめ細かい評価をサポートする。
フレキシブルな設定により、一般化因子のターゲットテストが可能になり、部分的な観測可能性、鍵とドアのタスク、氷床のハザードなどの変種を含む。
制御された再現可能な実験を可能にすることで、ラビリントは模倣学習における一般化の評価を進め、より堅牢なエージェントを開発するための貴重なツールを提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Simple Control Baselines for Evaluating Transfer Learning [1.0499611180329802]
我々は,伝達学習のパフォーマンスを定量化し,伝達することを目的とした評価基準を共有している。
自己教師型学習に関するいくつかの基本的な質問について,実証的研究を例に紹介する。
論文 参考訳(メタデータ) (2022-02-07T17:26:26Z) - Towards the Generalization of Contrastive Self-Supervised Learning [11.889992921445849]
本稿では, 自己教師付き事前学習モデルが下流タスクにどのように一般化するかを理論的に説明する。
さらに,SimCLR と Barlow Twins についても検討する。
論文 参考訳(メタデータ) (2021-11-01T07:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。