論文の概要: Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving
- arxiv url: http://arxiv.org/abs/2510.00919v2
- Date: Thu, 02 Oct 2025 09:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.597919
- Title: Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving
- Title(参考訳): オリンピックレベルの物理問題の解法における探索的生成を伴うベンチマーク基礎モデル
- Authors: Shunfeng Zheng, Yudi Zhang, Meng Fang, Zihan Zhang, Zhitan Wu, Mykola Pechenizkiy, Ling Chen,
- Abstract要約: 基礎モデルを用いた検索拡張世代(RAG)は,様々なタスクにおいて高い性能を達成している。
しかし、オリンピアードレベルの物理学問題を解くような専門家レベルの推論能力は、ほとんど解明されていない。
我々は,Olympiadレベルの物理に特化して設計された高品質なマルチモーダルデータセットであるPhoPileを紹介する。
PhoPileを用いて,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の両方を複数のレトリバーでカバーするRAG拡張基盤モデルのベンチマークを行った。
- 参考スコア(独自算出の注目度): 56.119382216818195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) with foundation models has achieved strong performance across diverse tasks, but their capacity for expert-level reasoning-such as solving Olympiad-level physics problems-remains largely unexplored. Inspired by the way students prepare for competitions by reviewing past problems, we investigate the potential of RAG to enhance physics reasoning in foundation models. We introduce PhoPile, a high-quality multimodal dataset specifically designed for Olympiad-level physics, enabling systematic study of retrieval-based reasoning. PhoPile includes diagrams, graphs, and equations, capturing the inherently multimodal nature of physics problem solving. Using PhoPile, we benchmark RAG-augmented foundation models, covering both large language models (LLMs) and large multimodal models (LMMs) with multiple retrievers. Our results demonstrate that integrating retrieval with physics corpora can improve model performance, while also highlighting challenges that motivate further research in retrieval-augmented physics reasoning.
- Abstract(参考訳): 基礎モデルを用いた検索拡張世代(RAG)は、様々なタスクで高い性能を達成しているが、オリンピアードレベルの物理学問題を解くような専門家レベルの推論能力は、ほとんど探索されていない。
過去の問題を見直すことで,学生が競争に備える方法に触発されて,基礎モデルにおける物理推論を強化するためのRAGの可能性について検討する。
我々は,Olympiadレベルの物理に特化して設計された高品質なマルチモーダルデータセットであるPhoPileを紹介し,検索に基づく推論の体系的な研究を可能にする。
PhoPileにはダイアグラム、グラフ、方程式が含まれており、物理問題解決の本質的にマルチモーダルな性質を捉えている。
PhoPileを用いて,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の両方を複数のレトリバーでカバーするRAG拡張基盤モデルのベンチマークを行った。
この結果から,検索と物理コーパスの統合によりモデル性能が向上し,検索強化物理推論のさらなる研究を動機付ける課題が浮き彫りになった。
関連論文リスト
- Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs [12.215295420714787]
本研究では、Deepseek-R1のような高度な命令調整推論モデルを用いて、挑戦的なSciBenchベンチマークから計算した様々な物理問題に対処する。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
論文 参考訳(メタデータ) (2025-07-02T03:51:16Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [95.2886065291234]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving [38.44445350202585]
大学レベルの物理問題解決のための総合的なベンチマークであるPHYSICSを紹介する。
古典力学、量子力学、熱力学、統計力学、電磁気学、原子物理学、光学の6つの中核領域をカバーする1297のエキスパート注釈付き問題を含んでいる。
論文 参考訳(メタデータ) (2025-03-26T06:21:56Z) - Large Physics Models: Towards a collaborative approach with Large Language Models and Foundation Models [8.320153035338418]
本稿では、物理固有の大規模AIモデルの開発と評価のためのアイデアを探求し、潜在的ロードマップを提供する。
これらのモデルは、Large Language Models (LLMs) のような基礎モデルに基づいており、物理学研究の要求に対応するように調整されている。
論文 参考訳(メタデータ) (2025-01-09T17:11:22Z) - Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。
本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T21:17:47Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。