論文の概要: Towards A Measure Of General Machine Intelligence
- arxiv url: http://arxiv.org/abs/2109.12075v1
- Date: Fri, 24 Sep 2021 16:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 16:48:07.620836
- Title: Towards A Measure Of General Machine Intelligence
- Title(参考訳): 汎用マシンインテリジェンスの計測に向けて
- Authors: Gautham Venkatasubramanian, Sibesh Kar, Abhimanyu Singh, Shubham
Mishra, Dushyant Yadav, Shreyansh Chandak
- Abstract要約: 汎用人工知能システムは未知の領域にまたがる未知の変数を扱うことができる。
現在のベンチマークは、新しいスキルの獲得の効率を定量的に測定するものではない。
本稿では、有向非巡回グラフの形式でプログラムを表現できる命令の共通言語を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To build increasingly general-purpose artificial intelligence systems that
can deal with unknown variables across unknown domains, we need benchmarks that
measure precisely how well these systems perform on tasks they have never seen
before. A prerequisite for this is a measure of a task's generalization
difficulty, or how dissimilar it is from the system's prior knowledge and
experience. If the skill of an intelligence system in a particular domain is
defined as it's ability to consistently generate a set of instructions (or
programs) to solve tasks in that domain, current benchmarks do not
quantitatively measure the efficiency of acquiring new skills, making it
possible to brute-force skill acquisition by training with unlimited amounts of
data and compute power. With this in mind, we first propose a common language
of instruction, i.e. a programming language that allows the expression of
programs in the form of directed acyclic graphs across a wide variety of
real-world domains and computing platforms. Using programs generated in this
language, we demonstrate a match-based method to both score performance and
calculate the generalization difficulty of any given set of tasks. We use these
to define a numeric benchmark called the g-index to measure and compare the
skill-acquisition efficiency of any intelligence system on a set of real-world
tasks. Finally, we evaluate the suitability of some well-known models as
general intelligence systems by calculating their g-index scores.
- Abstract(参考訳): 未知のドメインにまたがる未知の変数を処理できる汎用的な人工知能システムを構築するには、これらのシステムがこれまで見たことのないタスクでどれだけうまく機能するかを正確に測定するベンチマークが必要です。
これの前提条件は、タスクの一般化の難しさ、あるいはそれがシステムの以前の知識や経験といかに異なるかを示す尺度である。
特定の領域におけるインテリジェンスシステムのスキルが、その領域のタスクを解決するための一連の命令(またはプログラム)を一貫して生成する能力として定義されている場合、現在のベンチマークは、新しいスキルの獲得の効率を定量的に測定せず、無制限のデータと計算パワーでトレーニングすることで、力強いスキル獲得を可能にする。
このことを念頭において,我々はまず,多種多様な実世界ドメインと計算プラットフォームにわたる有向非巡回グラフの形でプログラムを表現することを可能にする,共通の命令言語,すなわちプログラミング言語を提案する。
本言語で生成したプログラムを用いて,任意のタスク群の性能評価と一般化の難しさの計算を行うためのマッチベース手法を示す。
我々はこれらを用いてg-indexと呼ばれる数値ベンチマークを定義し、実世界のタスク群における任意のインテリジェンスシステムのスキル獲得効率を測定し比較する。
最後に,g-indexスコアを計算し,汎用知能システムとしてよく知られたモデルの適合性を評価する。
関連論文リスト
- Knowledge Tagging with Large Language Model based Multi-Agent System [17.53518487546791]
本稿では,従来のアルゴリズムの限界に対処するマルチエージェントシステムについて検討する。
我々は,従来の手法が抱えていた課題を克服する上で,LLMベースのマルチエージェントシステムの可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T21:39:01Z) - From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - A Meta-Learning Algorithm for Interrogative Agendas [3.0969191504482247]
我々は,質問的議題を表現するために,標準的な知識表現形式主義である形式概念分析(FCA)に焦点を当てる。
FCAベースのアルゴリズムは、分類や外れ値検出などの標準的な機械学習タスクにすでに使用されている。
本稿では,データを説明する優れた質問課題を構築するためのメタ学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-04T22:09:36Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges [50.22269760171131]
過去10年間、データサイエンスと機械学習の実験的な革命が、ディープラーニングの手法によって生まれた。
このテキストは、統一幾何学的原理によって事前に定義された規則性を公開することに関するものである。
CNN、RNN、GNN、Transformersなど、最も成功したニューラルネットワークアーキテクチャを研究するための一般的な数学的フレームワークを提供する。
論文 参考訳(メタデータ) (2021-04-27T21:09:51Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。