論文の概要: ConvexBench: Can LLMs Recognize Convex Functions?
- arxiv url: http://arxiv.org/abs/2602.01075v2
- Date: Wed, 04 Feb 2026 08:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.699518
- Title: ConvexBench: Can LLMs Recognize Convex Functions?
- Title(参考訳): ConvexBench: LLMは凸関数を認識するか?
- Authors: Yepeng Liu, Yu Huang, Yu-Xiang Wang, Yingbin Liang, Yuheng Bu,
- Abstract要約: 凸解析は数学の現代的な分野であり、多くの応用がある。
大規模言語モデル(LLM)が研究レベルの数学と科学を自動化し始めるにつれ、LLMが凸性を理解し、推論する能力を示すことが重要である。
我々は,LLMが深い機能的構成下での象徴的対象の凸性を識別できるかどうかを,スケーラブルで機械的に検証できるベンチマークであるcbを紹介する。
- 参考スコア(独自算出の注目度): 70.53167848190624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convex analysis is a modern branch of mathematics with many applications. As Large Language Models (LLMs) start to automate research-level math and sciences, it is important for LLMs to demonstrate the ability to understand and reason with convexity. We introduce \cb, a scalable and mechanically verifiable benchmark for testing \textit{whether LLMs can identify the convexity of a symbolic objective under deep functional composition.} Experiments on frontier LLMs reveal a sharp compositional reasoning gap: performance degrades rapidly with increasing depth, dropping from an F1-score of $1.0$ at depth $2$ to approximately $0.2$ at depth $100$. Inspection of models' reasoning traces indicates two failure modes: \textit{parsing failure} and \textit{lazy reasoning}. To address these limitations, we propose an agentic divide-and-conquer framework that (i) offloads parsing to an external tool to construct an abstract syntax tree (AST) and (ii) enforces recursive reasoning over each intermediate sub-expression with focused context. This framework reliably mitigates deep-composition failures, achieving substantial performance improvement at large depths (e.g., F1-Score $= 1.0$ at depth $100$).
- Abstract(参考訳): 凸解析は数学の現代的な分野であり、多くの応用がある。
大規模言語モデル(LLM)が研究レベルの数学と科学を自動化し始めるにつれ、LLMが凸性を理解し、推論する能力を示すことが重要である。
我々は,LLMが深い関数構成の下で記号的対象の凸性を識別できるかどうかを検証するための,スケーラブルで機械的に検証可能なベンチマークである \cb を紹介した。
F1スコアの深さ2ドルから深さ100ドル程度まで下げ、F1スコアの深さ2ドルから約0.2ドルへと下げます。
モデルの推論トレースの検査は、2つの障害モードを示す: \textit{parsing failure} と \textit{lazy reasoning}。
これらの制約に対処するため,エージェント型分割・問い合わせフレームワークを提案する。
(i)抽象構文木(AST)を構築するために外部ツールに解析をオフロードし、
(ii) 集中した文脈で各中間部分表現に対して再帰的推論を実施する。
このフレームワークは、ディープコンポジションの失敗を確実に軽減し、大幅なパフォーマンス向上を実現します(例えば、F1-Score $=1.0$ at depth 100$)。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Tool Building as a Path to "Superintelligence" [7.762021543059531]
インテリジェントラーナーフレームワークは、LLMがテストタイムサーチによって超知能を達成することを示唆している。
論理的アウト・オブ・ディストリビューション推論で$$を測定するベンチマークを設計する。
大規模な推論を成功させるには、正確なツールコールが必要だと考えています。
論文 参考訳(メタデータ) (2026-02-24T16:22:10Z) - Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code [7.897548449569687]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コア設計概念に対する彼らの理解の堅牢性は、まだ不明である。
さまざまなレベルのガイダンスの下で、設計の不十分なソフトウェアフラグメントを生成します。
結合に関する推論は脆く、ノイズの多いオープンエンドのシナリオでパフォーマンスが崩壊する。
Reasoning-Trace分析はこれらの障害モードを確認し、結合のためのテキスト認識的ショートカットと結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
論文 参考訳(メタデータ) (2025-11-25T23:50:00Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Enumerating Minimal Unsatisfiable Cores of LTLf formulas [8.650929640364593]
有限トレース上の線形時間論理(textLTL_f$)は、AI、プロセスマイニング、モデルチェックなどの応用で広く使われている形式主義である。
本稿では,$textLTL_f$仕様の最小不満足コア(MUC)を列挙する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T17:15:30Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。