Fugu-MT 論文翻訳(概要): Issues with Measuring Task Complexity via Random Policies in Robotic Tasks

論文の概要: Issues with Measuring Task Complexity via Random Policies in Robotic Tasks

arxiv url: http://arxiv.org/abs/2602.18856v1
Date: Sat, 21 Feb 2026 14:38:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.357695
Title: Issues with Measuring Task Complexity via Random Policies in Robotic Tasks
Title（参考訳）: ロボット作業におけるランダムポリシーによるタスク複雑度測定の課題
Authors: Reabetswe M. Nkhumise, Mohamed S. Talamali, Aditya Gilra,
Abstract要約: 強化学習(RL)の主な課題は、タスクの複雑さを測定することである。非タブラル領域におけるタスクの複雑さを評価するための指標はほとんどない。
参考スコア（独自算出の注目度）: 0.005771104869225669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has enabled major advances in fields such as robotics and natural language processing. A key challenge in RL is measuring task complexity, which is essential for creating meaningful benchmarks and designing effective curricula. While there are numerous well-established metrics for assessing task complexity in tabular settings, relatively few exist in non-tabular domains. These include (i) Statistical analysis of the performance of random policies via Random Weight Guessing (RWG), and (ii) information-theoretic metrics Policy Information Capacity (PIC) and Policy-Optimal Information Capacity (POIC), which are reliant on RWG. In this paper, we evaluate these methods using progressively difficult robotic manipulation setups, with known relative complexity, with both dense and sparse reward formulations. Our empirical results reveal that measuring complexity is still nuanced. Specifically, under the same reward formulation, PIC suggests that a two-link robotic arm setup is easier than a single-link setup - which contradicts the robotic control and empirical RL perspective whereby the two-link setup is inherently more complex. Likewise, for the same setup, POIC estimates that tasks with sparse rewards are easier than those with dense rewards. Thus, we show that both PIC and POIC contradict typical understanding and empirical results from RL. These findings highlight the need to move beyond RWG-based metrics towards better metrics that can more reliably capture task complexity in non-tabular RL with our task framework as a starting point.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、ロボット工学や自然言語処理などの分野での大きな進歩を可能にしている。 RLの重要な課題は、有意義なベンチマークを作成し、効果的なカリキュラムを設計するのに不可欠なタスクの複雑さを測定することである。表の設定におけるタスクの複雑さを評価するための多くの確立されたメトリクスがあるが、非タブラル領域には比較的少ない。以下を含む。一ランダムウェイトガイダンス(RWG)によるランダムポリシーの性能の統計的分析及び (II)政策情報容量(PIC)と政策最適情報容量(POIC)は、RWGに依存している。本稿では, 比較的複雑なロボット操作装置を用いて, 密度と疎度の両方の報酬を定式化することにより, これらの手法の評価を行う。私たちの経験的結果は、複雑さの測定はまだニュアンスであることを示している。具体的には、同じ報酬の定式化の下で、PICは、2リンクのロボットアームのセットアップがシングルリンクのセットアップよりも簡単であることを示唆している。同様に、同じセットアップでは、疎い報酬を持つタスクは、密度の高い報酬を持つタスクよりも容易である、とPOICは見積もっている。したがって、PICとPOICの両者は、RLの典型的な理解と経験的結果に矛盾することを示す。これらの知見は、タスクフレームワークを出発点として、非タブラルRLのタスク複雑性をより確実に捉えられるような、RWGベースのメトリクスを超えて、より良いメトリクスに移行する必要性を浮き彫りにしている。

関連論文リスト

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-01-10T08:43:07Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning [83.94543243783285]
本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。 RLは確率増幅器ではなく推論合成器として機能する。
論文参考訳（メタデータ） (2025-12-01T18:27:25Z)
Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文参考訳（メタデータ） (2025-06-06T09:18:56Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。