論文の概要: Learning to Discover at Test Time
- arxiv url: http://arxiv.org/abs/2601.16175v1
- Date: Thu, 22 Jan 2026 18:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.690647
- Title: Learning to Discover at Test Time
- Title(参考訳): テスト時間で発見する学習
- Authors: Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun,
- Abstract要約: 私たちはAIを使って、科学的な問題に対する新しい最先端のアートを発見します。
この手法をTTT-Discover(Test-Time Training to Discover)と呼ぶ。
数学、GPUカーネルエンジニアリング、アルゴリズム設計、生物学のあらゆる問題に対する結果を報告する。
- 参考スコア(独自算出の注目度): 79.84622971773862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to $2\times$ faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.
- Abstract(参考訳): 科学的な問題に対する新たな最先端の発見にAIをどのように活用すればよいのか?
AlphaEvolveのようなテスト時間スケーリングの以前の作業は、凍結LDMのプロンプトによって検索を行う。
テスト時に強化学習を行うので、LLMはトレーニングを継続できますが、現在ではテスト問題に特有の経験を持っています。
なぜなら、そのゴールは、平均的に多くの優れたソリューションではなく、一つの優れたソリューションを作ることであり、他の問題に一般化するのではなく、この問題を解決することである。
したがって、学習目標と探索サブルーチンは、最も有望なソリューションを優先するように設計されている。
この手法をTTT-Discover(Test-Time Training to Discover)と呼ぶ。
事前の作業の後、私たちは継続的な報酬を伴う問題に焦点を合わせます。
数学、GPUカーネルエンジニアリング、アルゴリズム設計、生物学のあらゆる問題に対する結果を報告する。
TTT-Discoverは、新しい最先端技術をほぼすべてに設定します。
(i)エルデシュの最小重複問題と自己相関不等式
(ii)GPUModeカーネルコンペティション(以前の技術よりも最大2\times$高速)
(iii)過去のAtCoderアルゴリズムコンペティション
(4)単細胞解析におけるノイズ発生問題
私たちのソリューションは専門家やオーガナイザによってレビューされます。
すべての結果はオープンモデルであるOpenAI gpt-oss-120bで達成され、クローズドフロンティアモデルを必要とする以前の最良の結果とは対照的に、公開コードで再現することができます。
私たちのテストタイムトレーニングは、Thinking MachinesのAPIであるTinkerを使って行われます。
関連論文リスト
- AutoCode: LLMs as Problem Setters for Competitive Programming [94.71566758494787]
競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。
ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
論文 参考訳(メタデータ) (2025-09-29T17:59:03Z) - Can Multi-turn Self-refined Single Agent LMs with Retrieval Solve Hard Coding Problems? [0.34376560669160394]
本研究では,国際協調プログラミングコンテスト(ICPC)254の課題からなるICPCベンチマークを提案する。
我々は、これらのリソースと競合するプログラミングのための様々なLM推論手法を開発し、評価する。
驚くべきことに、o1が18のうち17の問題を解決できることがわかりました。
論文 参考訳(メタデータ) (2025-08-30T23:02:12Z) - Counting Cycles with Deepseek [10.137124603866038]
サイクル数統計量に対して計算的に効率的な等価形式(CEEF)を導出する方法。
提案する新しいアプローチと,その問題を解決するためのAIの強力なコーディングスキルを組み合わせる。
AIは、この問題を解決できないが、明確な戦略、ステップバイステップのガイダンス、慎重に書かれたプロンプトを提供しれば、それを解決できる。
論文 参考訳(メタデータ) (2025-05-23T14:34:40Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Streaming Algorithms for Learning with Experts: Deterministic Versus
Robust [62.98860182111096]
エキスパート問題を伴うオンライン学習では、アルゴリズムは、T$day(または時間)ごとに結果を予測する必要がある。
目標は最小限のコストで予測を行うことだ。
最良専門家が$M$の誤りを犯したとき、後悔する$R$を達成するような決定論的アルゴリズムに対して、$widetildeOmegaleft(fracnMRTright)$の空間下界を示す。
論文 参考訳(メタデータ) (2023-03-03T04:39:53Z) - Lifelong Bandit Optimization: No Prior and No Regret [70.94238868711952]
我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。
カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。
我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
論文 参考訳(メタデータ) (2022-10-27T14:48:49Z) - Winning solutions and post-challenge analyses of the ChaLearn AutoDL
challenge 2019 [112.36155380260655]
本稿では,ChaLearnのAutoDLチャレンジシリーズの結果と今後の課題について述べる。
その結果,一般的なニューラルネットワーク探索(NAS)は実用的ではなかったものの,DL手法が支配的であったことが示唆された。
メタラーナー"、"データインジェクタ"、"モデルセレクタ"、"モデル/ラーナー"、"評価器"を特徴とする、ハイレベルなモジュール化組織が登場した。
論文 参考訳(メタデータ) (2022-01-11T06:21:18Z) - A New Constructive Heuristic driven by Machine Learning for the
Traveling Salesman Problem [8.604882842499212]
近年,機械学習(ML)を用いてTSP(Traking Salesman Problem)を解くシステムでは,実ケースシナリオにスケールアップしようとすると問題が発生する。
問題に対処するため、候補リスト(CL)の使用が提起されている。
この作業では、高い確率のエッジに対してのみ、ソリューションの追加を確認するために、マシンラーニングモデルを使用します。
論文 参考訳(メタデータ) (2021-08-17T21:37:23Z) - Learning from Survey Propagation: a Neural Network for MAX-E-$3$-SAT [0.0]
本稿では,最大3-Stisfiability (MAX-E-$3$-SAT) 問題に対して$Theta(N)$で近似解を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-10T07:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。