論文の概要: AGI-Elo: How Far Are We From Mastering A Task?
- arxiv url: http://arxiv.org/abs/2505.12844v1
- Date: Mon, 19 May 2025 08:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.486932
- Title: AGI-Elo: How Far Are We From Mastering A Task?
- Title(参考訳): AGI-Elo: タスクのマスタリングからどのくらい離れていますか?
- Authors: Shuo Sun, Yimin Zhao, Christina Dao Wen Lee, Jiawei Sun, Chengran Yuan, Zefan Huang, Dongen Li, Justin KW Yeoh, Alok Prakash, Thomas W. Malone, Marcelo H. Ang Jr,
- Abstract要約: 本稿では、個別のテストケースの難易度と、視覚、言語、行動領域を越えたAIモデル(または人間)の能力を共同でモデル化する統合評価システムを提案する。
我々は、複数のAGIドメインにまたがる複数の確立されたデータセットとモデルに関する広範な実験を通じて、システムの一般化性と堅牢性を検証する。
- 参考スコア(独自算出の注目度): 8.378767006620294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As the field progresses toward Artificial General Intelligence (AGI), there is a pressing need for more comprehensive and insightful evaluation frameworks that go beyond aggregate performance metrics. This paper introduces a unified rating system that jointly models the difficulty of individual test cases and the competency of AI models (or humans) across vision, language, and action domains. Unlike existing metrics that focus solely on models, our approach allows for fine-grained, difficulty-aware evaluations through competitive interactions between models and tasks, capturing both the long-tail distribution of real-world challenges and the competency gap between current models and full task mastery. We validate the generalizability and robustness of our system through extensive experiments on multiple established datasets and models across distinct AGI domains. The resulting rating distributions offer novel perspectives and interpretable insights into task difficulty, model progression, and the outstanding challenges that remain on the path to achieving full AGI task mastery.
- Abstract(参考訳): 分野がAI(Artificial General Intelligence, AGI)へと進むにつれ、パフォーマンスメトリクスの集約を超えて、より包括的で洞察に富んだ評価フレームワークの必要性が高まっている。
本稿では、個別のテストケースの難易度と、視覚、言語、行動領域を越えたAIモデル(または人間)の能力を共同でモデル化する統合評価システムを提案する。
モデルのみにフォーカスする既存のメトリクスとは異なり、我々のアプローチは、モデルとタスク間の競合する相互作用を通じて、きめ細かい、難易度の高い評価を可能にし、現実世界の課題の長期分布と、現在のモデルと完全なタスクマスタリーの間の能力的ギャップの両方をキャプチャする。
我々は、複数のAGIドメインにまたがる複数の確立されたデータセットとモデルに関する広範な実験を通じて、システムの一般化性と堅牢性を検証する。
結果として得られた評価分布は、タスクの難易度、モデルの進歩、そして完全なAGIタスクの習得への道のりに残る優れた課題に対する、新しい視点と解釈可能な洞察を提供する。
関連論文リスト
- Automated Capability Discovery via Model Self-Exploration [5.404186221463082]
本稿では,ACD(Automated Capability Discovery)について紹介する。これは1つの基礎モデルを科学者として指定し,オープンなタスクを提案するフレームワークである。
ACDは、被験者モデルにおける驚くべき能力と失敗の両方を自動的に明らかにします。
さまざまなファンデーションモデルにまたがってACDをデモし、単一のチームで発見が難しい何千もの機能を自動的に明らかにすることを示した。
論文 参考訳(メタデータ) (2025-02-11T14:23:13Z) - BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。