Fugu-MT 論文翻訳(概要): MAD Chairs: A new tool to evaluate AI

論文の概要: MAD Chairs: A new tool to evaluate AI

arxiv url: http://arxiv.org/abs/2503.20986v3
Date: Tue, 22 Apr 2025 20:26:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 20:25:50.806814
Title: MAD Chairs: A new tool to evaluate AI
Title（参考訳）: MAD Chairs: AIを評価する新しいツール
Authors: Chris Santos-Lang, Christopher M. Homan,
Abstract要約: 本稿では,AIを評価する新しい手法を提案する。チェスにおけるマシンのパフォーマンスを評価できる限り、このアプローチでは「MADチェア」と呼ばれるゲームでマシンのパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 1.1510009152620668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper contributes a new way to evaluate AI. Much as one might evaluate a machine in terms of its performance at chess, this approach involves evaluating a machine in terms of its performance at a game called "MAD Chairs". At the time of writing, evaluation with this game exposed opportunities to improve Claude, Gemini, ChatGPT, Qwen and DeepSeek. Furthermore, this paper sets a stage for future innovation in game theory and AI safety by providing an example of success with non-standard approaches to each: studying a game beyond the scope of previous game theoretic tools and mitigating a serious AI safety risk in a way that requires neither determination of values nor their enforcement.
Abstract（参考訳）: 本稿では,AIを評価する新しい手法を提案する。チェスにおけるマシンのパフォーマンスを評価できる限り、このアプローチは"MAD Chairs"と呼ばれるゲームでマシンのパフォーマンスを評価する。執筆時点で、このゲームによる評価は、Claude、Gemini、ChatGPT、Qwen、DeepSeekを改善する機会を明らかにした。さらに,本稿では,ゲーム理論とAI安全性の今後の革新の舞台として,従来のゲーム理論ツールの範囲を超えたゲームの研究と,真剣なAI安全性リスクの軽減という,非標準的アプローチによる成功の例を示す。

関連論文リスト

General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
The Imitation Game According To Turing [0.0]
近年の研究では、大規模言語モデル(LLM)が1950年代からAIの目標であるチューリングテストに合格できると主張している。 GPT-4-Turbo を用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。 LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
論文参考訳（メタデータ） (2025-01-29T13:08:17Z)
Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文参考訳（メタデータ） (2024-04-18T15:01:00Z)
DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。 AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文参考訳（メタデータ） (2023-12-05T08:07:32Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
The cost of passing -- using deep learning AIs to expand our understanding of the ancient game of Go [0.0]
そこで我々は,文脈に敏感な動作評価を行うための数値ツールを開発した。石の現在の構成と同一基板位置における仮説パス後のスコア値の差である通過コストによる移動の緊急度を測定した。
論文参考訳（メタデータ） (2022-08-24T05:28:56Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
AI in Games: Techniques, Challenges and Opportunities [40.86375378643978]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文参考訳（メタデータ） (2021-11-15T09:35:53Z)
Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi [0.0]
我々は,ルールベースエージェントと学習ベースエージェントの両方を用いて,協力型カードゲームEmphHanabiにおける人間とAIエージェントのチームを評価する。人間は、最先端の学習ベースのAIチームメイトよりも、ルールベースのAIチームメイトをはっきりと好みます。
論文参考訳（メタデータ） (2021-07-15T22:19:15Z)
OpenHoldem: An Open Toolkit for Large-Scale Imperfect-Information Game Research [82.09426894653237]
OpenHoldemは、NLTHを用いた大規模不完全情報ゲーム研究のための統合ツールキットです。 1)異なるNLTH AIを徹底的に評価するための標準化された評価プロトコル、2)NLTH AIのための3つの公的に利用可能な強力なベースライン、3)公開NLTH AI評価のための使いやすいAPIを備えたオンラインテストプラットフォーム。
論文参考訳（メタデータ） (2020-12-11T07:24:08Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Towards Game-Playing AI Benchmarks via Performance Reporting Standards [0.9137554315375919]
本稿では,AIゲームプレイパフォーマンスの報告ガイドラインを提案し,従えば,異なるAIアプローチの非バイアス比較に適した情報を提供する。私たちが説明するビジョンは、さまざまなAIアルゴリズムの振る舞いに関するより一般的な結論を引き出すために、このようなガイドラインに基づいたベンチマークとコンペを構築することです。
論文参考訳（メタデータ） (2020-07-06T13:27:00Z)
From Chess and Atari to StarCraft and Beyond: How Game AI is Driving the World of AI [10.80914659291096]
Game AIは、最も先進的なAIアルゴリズムを開発し、テストするための研究分野として、自らを確立した。 Game AIの進歩は、ロボティクスや化学物質の合成など、ゲーム以外の領域にも拡張され始めている。
論文参考訳（メタデータ） (2020-02-24T18:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。