論文の概要: Evaluating Gemini in an arena for learning
- arxiv url: http://arxiv.org/abs/2505.24477v1
- Date: Fri, 30 May 2025 11:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.92374
- Title: Evaluating Gemini in an arena for learning
- Title(参考訳): 学習の場におけるジェミニの評価
- Authors: LearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Ankit Anand, Avishkar Bhoopchand, Brett Wiltshire, Daniel Gillick, Daniel Kasenberg, Eleni Sgouritsa, Gal Elidan, Hengrui Liu, Holger Winnemoeller, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin R. McKee, Komal Singh, Lisa Wang, Markus Kunesch, Miruna Pîslar, Niv Efron, Parsa Mahmoudieh, Pierre-Alexandre Kamienny, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Yael Gold-Zamir, Yael Haramaty, Yannis Assael,
- Abstract要約: 教育者や教育の専門家がAIモデルを比較する"学習の場"を運営しています。
このアリーナは、Gemini 2.5 Pro、Claude 3.7 Sonnet、GPT-4o、OpenAI o3といった最先端モデルのスレートを評価した。
専門家はこれらの試合の73.2%でジェミニ2.5 Proを好んだ。
- 参考スコア(独自算出の注目度): 15.667433491765571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) is poised to transform education, but the research community lacks a robust, general benchmark to evaluate AI models for learning. To assess state-of-the-art support for educational use cases, we ran an "arena for learning" where educators and pedagogy experts conduct blind, head-to-head, multi-turn comparisons of leading AI models. In particular, $N = 189$ educators drew from their experience to role-play realistic learning use cases, interacting with two models sequentially, after which $N = 206$ experts judged which model better supported the user's learning goals. The arena evaluated a slate of state-of-the-art models: Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4o, and OpenAI o3. Excluding ties, experts preferred Gemini 2.5 Pro in 73.2% of these match-ups -- ranking it first overall in the arena. Gemini 2.5 Pro also demonstrated markedly higher performance across key principles of good pedagogy. Altogether, these results position Gemini 2.5 Pro as a leading model for learning.
- Abstract(参考訳): 人工知能(AI)は教育を変革する可能性があるが、研究コミュニティには、学習のためのAIモデルを評価するための堅牢で一般的なベンチマークが欠けている。
教育ユースケースに対する最先端のサポートを評価するために、私たちは、教育者や教育専門家が主要なAIモデルの盲目、頭から頭、マルチターンの比較を行う、"学習のための領域"を実行しました。
特に、N = 189$の教育者は、経験からロールプレイのリアルな学習ユースケースへと引きずり出され、2つのモデルと順次対話し、その後、N = 206$の専門家は、どのモデルがユーザーの学習目標をより良く支持するかを判断した。
このアリーナは、Gemini 2.5 Pro、Claude 3.7 Sonnet、GPT-4o、OpenAI o3といった最先端モデルのスレートを評価した。
提携を除くと、専門家は73.2%でジェミニ2.5 Proを好んだ。
Gemini 2.5 Proはまた、優れた教育の鍵となる原則よりもはるかに高いパフォーマンスを示した。
いずれにせよ、これらの結果はGemini 2.5 Proを学習モデルとして位置づけている。
関連論文リスト
- Competitive Programming with Large Reasoning Models [73.7455809592467]
大規模言語モデル(LLM)に適用した強化学習は、複雑なコーディングや推論タスクの性能を大幅に向上させることを示す。
OpenAI o1 と初期チェックポイント o3 の2つの汎用推論モデルとドメイン固有のシステム o1-ioi を比較した。
以上の結果から,o1-ioiなどの特殊なパイプラインでは,手作りの推論に頼らずに,スケールアップされた汎用o3モデルがこれらの結果を上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T23:00:15Z) - LearnLM: Improving Gemini for Learning [8.530448114164443]
生成型AIシステムは、人間の家庭教師としての学習にユーザを巻き込むのではなく、デフォルトで情報を提示するように調整されている。
本稿では, 教育指導による教育訓練が, 有能なトレーナーにかなり好まれるLearnLMモデルをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-12-21T01:34:05Z) - Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.70522244144088]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。
Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。
ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-07-15T11:26:07Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Self-Rewarding Language Models [100.63658475137287]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。
反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文 参考訳(メタデータ) (2024-01-18T14:43:47Z) - How do machines learn? Evaluating the AIcon2abs method [0.0]
本研究は,AIcon2abs法(コンクリートから抽象へのAI:人工知能を一般大衆に普及させるAI)の評価を目的とした先行研究の拡大である。
このアプローチでは、単純さとユーザアクセシビリティで知られている、ウェイトレスニューラルネットワークであるWiSARDアルゴリズムを採用している。
WiSARDはインターネットを必要とせず、技術的でないユーザーやリソースに制限のある環境に最適である。
論文 参考訳(メタデータ) (2024-01-14T22:40:58Z) - Evaluating Large Language Models on the GMAT: Implications for the
Future of Business Education [0.13654846342364302]
本研究では,7大言語モデル(LLM)の性能評価を行う最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
論文 参考訳(メタデータ) (2024-01-02T03:54:50Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Gemini: A Family of Highly Capable Multimodal Models [629.0150653235353]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。
GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。
論文 参考訳(メタデータ) (2023-12-19T02:39:27Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。