論文の概要: No LLM Solved Yu Tsumura's 554th Problem
- arxiv url: http://arxiv.org/abs/2508.03685v1
- Date: Tue, 05 Aug 2025 17:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.111376
- Title: No LLM Solved Yu Tsumura's 554th Problem
- Title(参考訳): LLM、津村雄氏554号問題を解決
- Authors: Simon Frieder, William Hart,
- Abstract要約: 津村雄の54番目の問題は、証明の洗練の観点からは、IMO問題の範囲内にはないことを示す。
市販のLLMでは,既存の既成のLCMでは容易には解けない。
- 参考スコア(独自算出の注目度): 5.018363990542611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show, contrary to the optimism about LLM's problem-solving abilities, fueled by the recent gold medals that were attained, that a problem exists -- Yu Tsumura's 554th problem -- that a) is within the scope of an IMO problem in terms of proof sophistication, b) is not a combinatorics problem which has caused issues for LLMs, c) requires fewer proof techniques than typical hard IMO problems, d) has a publicly available solution (likely in the training data of LLMs), and e) that cannot be readily solved by any existing off-the-shelf LLM (commercial or open-source).
- Abstract(参考訳): LLMの問題解決能力に関する楽観主義とは裏腹に,最近達成された金メダルに支えられ,問題が存在することが示されています -- 津村雄の544番目の問題です。
a) 証明の洗練の観点からは、IMO問題の範囲内にある。
b) LLMの問題を引き起こしたコンビネータの問題ではない。
c) 典型的なIMO問題よりも証明技術が少ないこと。
d) 公開されているソリューション(LLMのトレーニングデータに類似している)、及び
e) 既存の市販のLCM(商用又はオープンソース)によって容易には解決できないもの
関連論文リスト
- ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。
我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。
LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文 参考訳(メタデータ) (2025-07-03T19:19:44Z) - Solving Situation Puzzles with Large Language Model and External Reformulation [6.793639595476304]
大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。
本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。
実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
論文 参考訳(メタデータ) (2025-03-24T07:05:55Z) - EHOP: A Dataset of Everyday NP-Hard Optimization Problems [66.41749917354159]
Everyday Hard Optimization Problems (EHOP) は、自然言語で表されるNPハード最適化問題の集合である。
EHOPには、コンピュータサイエンスの教科書で見られる問題の定式化、実生活で起こりうる問題として着飾られたバージョン、逆ルールでよく知られた問題の変種が含まれている。
現状のLLMは、複数のプロンプト戦略にまたがって、実生活や逆転型よりも教科書問題を体系的に高精度に解決していることがわかった。
論文 参考訳(メタデータ) (2025-02-19T14:39:59Z) - Capturing Sparks of Abstraction for the ARC Challenge [0.10878040851637999]
商用のLarge Language Models(LLM)でさえ、多くの問題を"理解"するのに苦労しています。
LLM出力から'Sparks of Abstraction'を抽出できることを実証する。
arc-dsl-llm DSLフレームワークとGemini LLM生成データの両方がオープンソースになっている。
論文 参考訳(メタデータ) (2024-11-17T23:40:00Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Evaluating LLMs with Multiple Problems at once [9.173325772800341]
本稿では,複数の問題を同時に抱えたLLMの評価のメリットと実効性を示す。
我々はZeMPE(Zero-shot Multi-Problem Evaluation)と呼ばれる新しいベンチマークを導入する。
以上の結果から,LCMは単一データソースから複数の問題を処理できるだけでなく,個別に処理できるが,複数の問題処理能力に乏しい条件が存在することがわかった。
論文 参考訳(メタデータ) (2024-06-16T02:52:32Z) - Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。
課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。
本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。