論文の概要: Aletheia tackles FirstProof autonomously
- arxiv url: http://arxiv.org/abs/2602.21201v1
- Date: Tue, 24 Feb 2026 18:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.893646
- Title: Aletheia tackles FirstProof autonomously
- Title(参考訳): AletheiaがFirstProofに挑戦
- Authors: Tony Feng, Junehyuk Jung, Sang-hyun Kim, Carlo Pagano, Sergei Gukov, Chiang-Chiang Tsai, David Woodruff, Adel Javanmard, Aryan Mokhtari, Dawsen Hwang, Yuri Chervonyi, Jonathan N. Lee, Garrett Bingham, Trieu H. Trinh, Vahab Mirrokni, Quoc V. Le, Thang Luong,
- Abstract要約: アレクシアは10件中6件を自主的に解決した。
完全な透明性のために、FirstProofの解釈を説明し、実験の詳細と評価を明らかにします。
- 参考スコア(独自算出の注目度): 54.074080352783625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.
- Abstract(参考訳): We report the performance of Aletheia (Feng et al , 2026b), a mathematics research agent with Gemini 3 Deep Think, on the FirstProof Challenge。
課題の許容された時間枠の中で、Aletheiaは、大多数の専門家による評価によると、10のうち6つの問題(2, 5, 7, 8, 9, 10)を自律的に解決しました。
完全な透明性のために、FirstProofの解釈を説明し、実験の詳細と評価を明らかにします。
Rawのプロンプトとアウトプットはhttps://github.com/google-deepmind/super Human/tree/main/aletheiaで公開されている。
関連論文リスト
- Towards Autonomous Mathematics Research [48.29504087871558]
Aletheiaは、自然言語のエンドツーエンドの解を反復的に生成し、検証し、修正する数学研究エージェントである。
具体的には、AletheiaはGemini Deep Thinkの高度なバージョンで、推論の問題に挑戦している。
我々は、オリンピアード問題から博士レベルのエクササイズまで、AI支援数学研究におけるいくつかのマイルストーンを通じて、アレクシアを実証する。
論文 参考訳(メタデータ) (2026-02-10T18:50:15Z) - Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems [22.064232024924422]
我々はジェミニを用いて、ブルームのアーズ問題データベースに「オープン」とラベル付けされた700の予想を評価する。
データベースに'オープン'とマークされた13の問題に対処する。
以上の結果から,問題の「開放」状態は難易度よりも不明瞭度が原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T23:15:36Z) - From Questions to Insights: Exploring XAI Challenges Reported on Stack Overflow Questions [1.8049331600471712]
解釈可能性の欠如は、AIモデルの実用的使用を制限する主要な障壁である。
XAI技術(例えばSHAP、LIME)はこれらのモデルの性能を解釈するために使われてきた。
我々は,これらの課題,その重症度,XAI技術をより使いやすくするための特徴を明らかにするために,探索的研究を行った。
論文 参考訳(メタデータ) (2025-04-03T23:33:46Z) - The Third Monocular Depth Estimation Challenge [134.16634233789776]
本稿では,モノクロ深度推定チャレンジ(MDEC)の第3版の結果について述べる。
この課題は、自然と屋内の複雑なシーンを特徴とする、挑戦的なSynS-Patchesデータセットへのゼロショットの一般化に焦点を当てている。
挑戦者は17.51%から23.72%の3D Fスコアのパフォーマンスを大幅に改善した。
論文 参考訳(メタデータ) (2024-04-25T17:59:59Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。