論文の概要: Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving
- arxiv url: http://arxiv.org/abs/2510.00919v2
- Date: Thu, 02 Oct 2025 09:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.597919
- Title: Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving
- Title(参考訳): オリンピックレベルの物理問題の解法における探索的生成を伴うベンチマーク基礎モデル
- Authors: Shunfeng Zheng, Yudi Zhang, Meng Fang, Zihan Zhang, Zhitan Wu, Mykola Pechenizkiy, Ling Chen,
- Abstract要約: 基礎モデルを用いた検索拡張世代(RAG)は,様々なタスクにおいて高い性能を達成している。
しかし、オリンピアードレベルの物理学問題を解くような専門家レベルの推論能力は、ほとんど解明されていない。
我々は,Olympiadレベルの物理に特化して設計された高品質なマルチモーダルデータセットであるPhoPileを紹介する。
PhoPileを用いて,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の両方を複数のレトリバーでカバーするRAG拡張基盤モデルのベンチマークを行った。
- 参考スコア(独自算出の注目度): 56.119382216818195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) with foundation models has achieved strong performance across diverse tasks, but their capacity for expert-level reasoning-such as solving Olympiad-level physics problems-remains largely unexplored. Inspired by the way students prepare for competitions by reviewing past problems, we investigate the potential of RAG to enhance physics reasoning in foundation models. We introduce PhoPile, a high-quality multimodal dataset specifically designed for Olympiad-level physics, enabling systematic study of retrieval-based reasoning. PhoPile includes diagrams, graphs, and equations, capturing the inherently multimodal nature of physics problem solving. Using PhoPile, we benchmark RAG-augmented foundation models, covering both large language models (LLMs) and large multimodal models (LMMs) with multiple retrievers. Our results demonstrate that integrating retrieval with physics corpora can improve model performance, while also highlighting challenges that motivate further research in retrieval-augmented physics reasoning.
- Abstract(参考訳): 基礎モデルを用いた検索拡張世代(RAG)は、様々なタスクで高い性能を達成しているが、オリンピアードレベルの物理学問題を解くような専門家レベルの推論能力は、ほとんど探索されていない。
過去の問題を見直すことで,学生が競争に備える方法に触発されて,基礎モデルにおける物理推論を強化するためのRAGの可能性について検討する。
我々は,Olympiadレベルの物理に特化して設計された高品質なマルチモーダルデータセットであるPhoPileを紹介し,検索に基づく推論の体系的な研究を可能にする。
PhoPileにはダイアグラム、グラフ、方程式が含まれており、物理問題解決の本質的にマルチモーダルな性質を捉えている。
PhoPileを用いて,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の両方を複数のレトリバーでカバーするRAG拡張基盤モデルのベンチマークを行った。
この結果から,検索と物理コーパスの統合によりモデル性能が向上し,検索強化物理推論のさらなる研究を動機付ける課題が浮き彫りになった。
関連論文リスト
- Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs [12.215295420714787]
本研究では、Deepseek-R1のような高度な命令調整推論モデルを用いて、挑戦的なSciBenchベンチマークから計算した様々な物理問題に対処する。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
論文 参考訳(メタデータ) (2025-07-02T03:51:16Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。
本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T21:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。