論文の概要: Intervention Complexity as a Canonical Reward and a Measure of Intelligence
- arxiv url: http://arxiv.org/abs/2605.02175v1
- Date: Mon, 04 May 2026 03:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.11927
- Title: Intervention Complexity as a Canonical Reward and a Measure of Intelligence
- Title(参考訳): カノニカル・リワードとインテリジェンス尺度としての介入複雑度
- Authors: Brendan McCane,
- Abstract要約: 本研究では, 環境由来性, 普遍性, 最小性, 感度, 達成度という5つの自然特性を持つ介入複雑性という新しい尺度を提案する。
その結果、リソースバイアスによってインデックスされた正準報酬の族が得られる。
我々は超知能と訓練前のユニバーサルエージェントの意義について論じる。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Legg--Hutter universal intelligence measure provides a rigorous scalar assessment of general intelligence as expected reward across all computable environments, weighted by simplicity. However, the measure presupposes an externally specified reward function, raising the question of whether the reward primitive is inherently arbitrary or whether a canonical choice exists. We propose a new measure, called intervention complexity, that has five natural properties: environment-derivedness, universality, minimality, sensitivity, and achievement preference. Given a resource function rho encoding an inductive bias (such as program length, execution time, or energy), rho-intervention complexity is a universal reward. The result yields a family of canonical rewards indexed by resource bias, providing a principled completion of the Legg--Hutter framework that does not require external normative input. We further propose a two-dimensional characterisation of intelligence: agent competence (how well the agent performs relative to the oracle optimum) and learning efficiency (how quickly this competence improves with experience). A separation theorem establishes that the choice of resource bias determines the computability of the resulting measure: action-count IC is computable in polynomial time, while program-length IC without oracle access is uncomputable, with the gap between oracle and bare IC precisely quantifying the information-theoretic content of learning. We discuss implications for superintelligence and for pre-training universal agents.
- Abstract(参考訳): Legg-Hutterユニバーサルインテリジェンス尺度は、単純さによって重み付けされた計算可能なすべての環境において、期待される報酬として、汎用インテリジェンスの厳密なスカラー評価を提供する。
しかし、この測度は外部に指定された報酬関数を前提としており、報酬プリミティブが本質的に任意のものなのか、正規選択が存在するのかという疑問を提起する。
本研究では, 環境由来性, 普遍性, 最小性, 感度, 達成度という5つの自然特性を持つ介入複雑性という新しい尺度を提案する。
帰納バイアス(プログラム長、実行時間、エネルギーなど)を符号化するリソース関数 rho が与えられた場合、rho-intervention complexity は普遍的な報酬である。
その結果、リソースバイアスによってインデックス付けされた標準的な報酬の族が得られ、外部規範入力を必要としないLegg-Hutterフレームワークの原理的な完成を提供する。
さらに,エージェント・コンピテンス(エージェント・コンピテンス)と学習効率(エージェント・コンピテンス)という,エージェント・コンピテンス(エージェント・コンピテンス)の2次元的特徴化を提案する。
分離定理は、リソースバイアスの選択が結果の計算可能性を決定することを証明している: アクションカウントICは多項式時間で計算可能であり、一方、オラクルアクセスのないプログラム長ICは計算不可能である。
我々は超知能と訓練前のユニバーサルエージェントの意義について論じる。
関連論文リスト
- Breaking the Computational Barrier: Provably Efficient Actor-Critic for Low-Rank MDPs [53.412166189410904]
低ランクマルコフ決定過程(MDPs)の下で広く採用されているRLオーラクルの階層を確立するために,教師付き学習を計算プロキシとして利用する。
本研究の目的は,政策評価にのみ依存する新しい楽観的アクター批判アルゴリズムを提案することである。
提案アルゴリズムは,従来の計算コストの高い計画や最適化オーラクルを回避しつつ,既存のサンプル複雑度保証よりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-02T04:46:54Z) - Provable and Practical In-Context Policy Optimization for Self-Improvement [49.670847804409874]
本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。
提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-02T00:21:50Z) - From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning [83.94543243783285]
本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。
RLは確率増幅器ではなく推論合成器として機能する。
論文 参考訳(メタデータ) (2025-12-01T18:27:25Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability [0.14061979259370275]
アルゴリズムの確率を基礎としたオープンエンドテストを導入する。
これはフロンティアモデルの定量的評価においてベンチマーク汚染を避けることができる。
圧縮はシステムの予測力と等価であり、直接的に比例することを示す。
論文 参考訳(メタデータ) (2025-03-20T23:11:30Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Oracle Computability and Turing Reducibility in the Calculus of
Inductive Constructions [0.0]
インダクティブ・コンストラクションの計算におけるオラクル計算可能性とチューリング再現性の概念を総合的に展開する。
通常、合成手法では、メタレベル関数に基づいたオラクル計算の定義を用いる。
チューリングの再現性は上半格子を形成し、決定可能性を持ち、真理値の再現性よりも厳密に表現可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T13:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。