論文の概要: Vibe Reasoning: Eliciting Frontier AI Mathematical Capabilities -- A Case Study on IMO 2025 Problem 6
- arxiv url: http://arxiv.org/abs/2512.19287v1
- Date: Mon, 22 Dec 2025 11:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.729233
- Title: Vibe Reasoning: Eliciting Frontier AI Mathematical Capabilities -- A Case Study on IMO 2025 Problem 6
- Title(参考訳): Vibe Reasoning:フロンティアAI数学能力の排除 - IMO 2025 Issue 6のケーススタディ
- Authors: Jiaao Wu, Xian Zhang, Fan Yang, Yinpeng Dong,
- Abstract要約: 本稿では,複雑な数学的問題を解くための人間-AI協調パラダイムであるVibe Reasoningを紹介する。
我々は、自律型AIシステムが障害を公に報告する最適化問題であるIMO 2025 Problem 6を通して、このパラダイムを実証する。
- 参考スコア(独自算出の注目度): 28.84243696489176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Vibe Reasoning, a human-AI collaborative paradigm for solving complex mathematical problems. Our key insight is that frontier AI models already possess the knowledge required to solve challenging problems -- they simply do not know how, what, or when to apply it. Vibe Reasoning transforms AI's latent potential into manifested capability through generic meta-prompts, agentic grounding, and model orchestration. We demonstrate this paradigm through IMO 2025 Problem 6, a combinatorial optimization problem where autonomous AI systems publicly reported failures. Our solution combined GPT-5's exploratory capabilities with Gemini 3 Pro's proof strengths, leveraging agentic workflows with Python code execution and file-based memory, to derive both the correct answer (2112) and a rigorous mathematical proof. Through iterative refinement across multiple attempts, we discovered the necessity of agentic grounding and model orchestration, while human prompts evolved from problem-specific hints to generic, transferable meta-prompts. We analyze why capable AI fails autonomously, how each component addresses specific failure modes, and extract principles for effective vibe reasoning. Our findings suggest that lightweight human guidance can unlock frontier models' mathematical reasoning potential. This is ongoing work; we are developing automated frameworks and conducting broader evaluations to further validate Vibe Reasoning's generality and effectiveness.
- Abstract(参考訳): 本稿では,複雑な数学的問題を解くための人間-AI協調パラダイムであるVibe Reasoningを紹介する。
私たちの重要な洞察は、フロンティアAIモデルは、課題を解決するために必要な知識をすでに持っていることです。
Vibe Reasoningは、AIの潜在能力を、汎用メタプロンプト、エージェントグラウンド、モデルオーケストレーションを通じて、明らかにする能力に変換する。
我々は、自律型AIシステムが障害を公に報告する組合せ最適化問題であるIMO 2025 Problem 6を通して、このパラダイムを実証する。
我々は GPT-5 の探索能力と Gemini 3 Pro の証明能力を組み合わせて,Python コード実行とファイルベースのメモリによるエージェントワークフローを活用し,正しい解法 (2112) と厳密な数学的証明を導出する。
複数の試みにまたがる反復的な改良により,エージェントの接地とモデルオーケストレーションの必要性が発見され,人間のプロンプトは問題固有のヒントから汎用的なメタプロンプトへと進化した。
有能なAIが自律的に失敗する理由、各コンポーネントが特定の障害モードにどう対処するかを分析し、効果的なバイブ推論のための原則を抽出する。
本研究により,フロンティアモデルの数学的推論能力は,軽量な人的指導によって解き放たれることが示唆された。
私たちは自動フレームワークを開発し、Vibe Reasoningの汎用性と有効性をさらに検証するために、より広範な評価を実施しています。
関連論文リスト
- Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction [26.396483988509956]
本稿では,多様な領域にまたがる20以上のモデルに対して,人間とAIの難易度を大規模に解析する。
以上の結果から,モデルサイズのスケールアップが確実でない体系的不整合が明らかとなった。
モデルが生徒の能力制限をシミュレートするのに苦労しているため,高い性能が正確な難易度推定を妨げている場合が多い。
論文 参考訳(メタデータ) (2025-12-21T20:41:36Z) - FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming [19.576944188747166]
FormulaOne(フォーミュラワン)は、グラフ理論、論理、アルゴリズムのベンチマークである。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
注目すべきは、OpenAIのo3のような最先端のモデルはF1で完全に失敗することです。
論文 参考訳(メタデータ) (2025-07-17T17:53:55Z) - AGI Is Coming... Right After AI Learns to Play Wordle [4.2909314120969855]
マルチモーダルエージェント、特にOpenAIのComputer-User Agent (CUA)は、人間のように標準的なコンピュータインターフェースを通じてタスクを制御および完了するよう訓練されている。
The New York Times Wordle game におけるエージェントのパフォーマンスを評価し,モデル行動の抽出と欠点の同定を行った。
論文 参考訳(メタデータ) (2025-04-21T20:58:58Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and
Successes in the XAI Program [17.52385105997044]
ディープニューラルネットワーク駆動モデルは、ベンチマークの自律性タスクにおいて、人間レベルのパフォーマンスを上回っている。
しかし、これらのエージェントの根底にあるポリシーは容易には解釈できない。
本稿では,これらの取組みの起源を論じ,情報の増幅と今後の課題について提案する。
論文 参考訳(メタデータ) (2021-06-10T05:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。