論文の概要: Evaluating Gemini in an arena for learning
- arxiv url: http://arxiv.org/abs/2505.24477v1
- Date: Fri, 30 May 2025 11:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.92374
- Title: Evaluating Gemini in an arena for learning
- Title(参考訳): 学習の場におけるジェミニの評価
- Authors: LearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Ankit Anand, Avishkar Bhoopchand, Brett Wiltshire, Daniel Gillick, Daniel Kasenberg, Eleni Sgouritsa, Gal Elidan, Hengrui Liu, Holger Winnemoeller, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin R. McKee, Komal Singh, Lisa Wang, Markus Kunesch, Miruna Pîslar, Niv Efron, Parsa Mahmoudieh, Pierre-Alexandre Kamienny, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Yael Gold-Zamir, Yael Haramaty, Yannis Assael,
- Abstract要約: 教育者や教育の専門家がAIモデルを比較する"学習の場"を運営しています。
このアリーナは、Gemini 2.5 Pro、Claude 3.7 Sonnet、GPT-4o、OpenAI o3といった最先端モデルのスレートを評価した。
専門家はこれらの試合の73.2%でジェミニ2.5 Proを好んだ。
- 参考スコア(独自算出の注目度): 15.667433491765571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) is poised to transform education, but the research community lacks a robust, general benchmark to evaluate AI models for learning. To assess state-of-the-art support for educational use cases, we ran an "arena for learning" where educators and pedagogy experts conduct blind, head-to-head, multi-turn comparisons of leading AI models. In particular, $N = 189$ educators drew from their experience to role-play realistic learning use cases, interacting with two models sequentially, after which $N = 206$ experts judged which model better supported the user's learning goals. The arena evaluated a slate of state-of-the-art models: Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4o, and OpenAI o3. Excluding ties, experts preferred Gemini 2.5 Pro in 73.2% of these match-ups -- ranking it first overall in the arena. Gemini 2.5 Pro also demonstrated markedly higher performance across key principles of good pedagogy. Altogether, these results position Gemini 2.5 Pro as a leading model for learning.
- Abstract(参考訳): 人工知能(AI)は教育を変革する可能性があるが、研究コミュニティには、学習のためのAIモデルを評価するための堅牢で一般的なベンチマークが欠けている。
教育ユースケースに対する最先端のサポートを評価するために、私たちは、教育者や教育専門家が主要なAIモデルの盲目、頭から頭、マルチターンの比較を行う、"学習のための領域"を実行しました。
特に、N = 189$の教育者は、経験からロールプレイのリアルな学習ユースケースへと引きずり出され、2つのモデルと順次対話し、その後、N = 206$の専門家は、どのモデルがユーザーの学習目標をより良く支持するかを判断した。
このアリーナは、Gemini 2.5 Pro、Claude 3.7 Sonnet、GPT-4o、OpenAI o3といった最先端モデルのスレートを評価した。
提携を除くと、専門家は73.2%でジェミニ2.5 Proを好んだ。
Gemini 2.5 Proはまた、優れた教育の鍵となる原則よりもはるかに高いパフォーマンスを示した。
いずれにせよ、これらの結果はGemini 2.5 Proを学習モデルとして位置づけている。
関連論文リスト
- LearnLM: Improving Gemini for Learning [8.530448114164443]
生成型AIシステムは、人間の家庭教師としての学習にユーザを巻き込むのではなく、デフォルトで情報を提示するように調整されている。
本稿では, 教育指導による教育訓練が, 有能なトレーナーにかなり好まれるLearnLMモデルをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-12-21T01:34:05Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Gemini: A Family of Highly Capable Multimodal Models [629.0150653235353]
マルチモーダルモデルの新たなファミリーであるGeminiは、画像、オーディオ、ビデオ、テキスト理解にまたがる優れた機能を示している。
GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。
論文 参考訳(メタデータ) (2023-12-19T02:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。