論文の概要: Musical Chairs: A new benchmark to evaluate AI
- arxiv url: http://arxiv.org/abs/2503.20986v1
- Date: Wed, 26 Mar 2025 20:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:33.968290
- Title: Musical Chairs: A new benchmark to evaluate AI
- Title(参考訳): Musical Chairs: AIを評価するための新しいベンチマーク
- Authors: Chris Santos-Lang, Christopher M. Homan,
- Abstract要約: 本稿では,潜在的なAI設計の立案に使用されるベンチマークの増大に対する新たな貢献について述べる。
このベンチマークでは、"Musical Chairs"と呼ばれるゲームのパフォーマンスの観点からマシンをテストする。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: This paper presents a new contribution to the growing set of benchmarks used to prune potential AI designs. Much as one might evaluate a machine in terms of its performance at chess, this benchmark involves testing a machine in terms of its performance at a game called "Musical Chairs." At the time of writing, Claude, ChatGPT, and Qwen each failed this test, so the test could aid in their ongoing improvement. Furthermore, this paper sets a stage for future innovation in game theory and AI safety by providing an example of success with non-standard approaches to each: studying a game beyond the scope of previous game theoretic tools and mitigating a serious AI safety risk in a way that requires neither determination of values nor their enforcement.
- Abstract(参考訳): 本稿では,潜在的なAI設計の立案に使用されるベンチマークの増大に対する新たな貢献について述べる。
チェスでのパフォーマンスでマシンを評価するのと同じくらい、このベンチマークでは"Musical Chairs"と呼ばれるゲームでのパフォーマンスでマシンをテストする。
執筆時点で、Claude、ChatGPT、Qwenはそれぞれこのテストに失敗した。
さらに,本稿では,ゲーム理論とAI安全性の今後の革新の舞台として,従来のゲーム理論ツールの範囲を超えたゲームの研究と,真剣なAI安全性リスクの軽減という,非標準的アプローチによる成功の例を示す。
関連論文リスト
- The Imitation Game According To Turing [0.0]
近年の研究では、大規模言語モデル(LLM)が1950年代からAIの目標であるチューリングテストに合格できると主張している。
GPT-4-Turbo を用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。
LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
論文 参考訳(メタデータ) (2025-01-29T13:08:17Z) - The Einstein Test: Towards a Practical Test of a Machine's Ability to Exhibit Superintelligence [1.9608359347635138]
我々は、CDIを作成する能力は、マシン超知能の重要な特徴とみなすべきであると論じている。
本稿では,SIを対象とするAIへのアプローチが,このような新たな洞察を得られるかどうかを評価するための実践的テストを提案する。
論文 参考訳(メタデータ) (2025-01-12T21:55:04Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - OpenHoldem: An Open Toolkit for Large-Scale Imperfect-Information Game
Research [82.09426894653237]
OpenHoldemは、NLTHを用いた大規模不完全情報ゲーム研究のための統合ツールキットです。
1)異なるNLTH AIを徹底的に評価するための標準化された評価プロトコル、2)NLTH AIのための3つの公的に利用可能な強力なベースライン、3)公開NLTH AI評価のための使いやすいAPIを備えたオンラインテストプラットフォーム。
論文 参考訳(メタデータ) (2020-12-11T07:24:08Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Towards Game-Playing AI Benchmarks via Performance Reporting Standards [0.9137554315375919]
本稿では,AIゲームプレイパフォーマンスの報告ガイドラインを提案し,従えば,異なるAIアプローチの非バイアス比較に適した情報を提供する。
私たちが説明するビジョンは、さまざまなAIアルゴリズムの振る舞いに関するより一般的な結論を引き出すために、このようなガイドラインに基づいたベンチマークとコンペを構築することです。
論文 参考訳(メタデータ) (2020-07-06T13:27:00Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。