論文の概要: Grading the Unspoken: Evaluating Tacit Reasoning in Quantum Field Theory and String Theory with LLMs
- arxiv url: http://arxiv.org/abs/2604.14188v1
- Date: Wed, 01 Apr 2026 02:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.708753
- Title: Grading the Unspoken: Evaluating Tacit Reasoning in Quantum Field Theory and String Theory with LLMs
- Title(参考訳): 量子場論における暗黙的推論の評価とLLMを用いた弦理論
- Authors: Xingyang Yu, Yinghuan Zhang, Yufei Zhang, Zijun Cui,
- Abstract要約: 大規模な言語モデルは、数学と物理学の多くの領域で顕著なパフォーマンスを示している。
1つの自然な疑問は、そのようなモデルが量子場理論や弦理論のような高度に抽象的な理論分野の研究を支援することができるかどうかである。
我々は、量子場理論と弦理論の中核領域にまたがる12の質問からなる、コンパクトな専門家計算データセットを構築した。
- 参考スコア(独自算出の注目度): 6.723992068753028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated impressive performance across many domains of mathematics and physics. One natural question is whether such models can support research in highly abstract theoretical fields such as quantum field theory and string theory. Evaluating this possibility faces an immediate challenge: correctness in these domains is layered, tacit, and fundamentally non-binary. Standard answer-matching metrics fail to capture whether intermediate conceptual steps are properly reconstructed or whether implicit structural constraints are respected. We construct a compact expert-curated dataset of twelve questions spanning core areas of quantum field theory and string theory, and introduce a five-level grading rubric separating statement correctness, key concept awareness, reasoning chain presence, tacit step reconstruction, and enrichment. Evaluating multiple contemporary LLMs, we observe near-ceiling performance on explicit derivations within stable conceptual frames, but systematic degradation when tasks require reconstruction of omitted reasoning steps or reorganization of representations under global consistency constraints. These failures are driven not only by missing intermediate steps, but by an instability in representation selection: models often fail to identify the correct conceptual framing required to resolve implicit tensions. We argue that highly abstract theoretical physics provides a uniquely sensitive lens on the epistemic limits of current evaluation paradigms.
- Abstract(参考訳): 大規模な言語モデルは、数学と物理学の多くの領域で顕著なパフォーマンスを示している。
1つの自然な疑問は、そのようなモデルが量子場理論や弦理論のような高度に抽象的な理論分野の研究を支援することができるかどうかである。
これらのドメインの正しさは階層化され、暗黙的であり、基本的には非バイナリである。
標準回答マッチングメトリクスは、中間概念ステップが適切に再構成されているか、暗黙的な構造的制約が尊重されているかを把握することができない。
我々は、量子場理論と弦理論のコア領域にまたがる12の質問からなる、コンパクトな専門家計算データセットを構築し、文の正当性、キーコンセプトの認識、推論チェーンの存在、暗黙のステップ再構成、エンリッチメントを5段階のグレーディングルーブリックに導入する。
複数の現代LLMを評価することで、安定な概念的フレーム内での明示的導出の概焼性能を観察するが、タスクが省略された推論ステップの再構築や、グローバルな一貫性制約下での表現の再編成を必要とする場合の体系的劣化を観察する。
これらの失敗は、中間段階の欠如だけでなく、表現選択の不安定性によっても引き起こされる:モデルはしばしば暗黙の緊張を解消するために必要な正しい概念的フレーミングを特定するのに失敗する。
我々は、高度に抽象的な理論物理学が、現在の評価パラダイムのエピステミック限界に対して、一意に敏感なレンズを提供すると主張する。
関連論文リスト
- Understanding Quantum Theory: An Operational Reconstructive Approach [0.0]
量子論の創始から100年後、理論によって記述される現実の種類について合意が得られない。
主流の方法論は、メタ物理的にラップされた言語による不適切な影響に対してほとんど保護を提供しない。
同一粒子の定式化の再構築とその段階的解釈について述べる。
論文 参考訳(メタデータ) (2026-04-01T16:21:45Z) - OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - Beyond the Black Box: Theory and Mechanism of Large Language Models [39.10631426330405]
LLM(Large Language Models)の急速な台頭は、人工知能において大きなパラダイムシフトを引き起こした。
本調査では,データ作成,モデル作成,トレーニング,アライメント,推論,評価の6つの段階に,研究環境を整理するライフサイクルベースの統合分類法を提案する。
論文 参考訳(メタデータ) (2026-01-06T10:45:53Z) - On the Fundamental Limits of LLMs at Scale [15.459708840379975]
大きな言語モデル(LLM)は、スケーリングから非常に恩恵を受けていますが、これらの利益には5つの基本的な制限があります。
この研究は、LLMスケーリングの本質的に理論的な天井を形式化する統一された証明インフォームド・フレームワークを提示する。
確率に基づくトレーニングは、推論よりもパターン補完を優先し、トークン制限下での検索はセマンティックドリフトとカップリングノイズに苦しむこと、マルチモーダルスケーリングが浅度なクロスモーダルアライメントをいかに継承するかを示す。
論文 参考訳(メタデータ) (2025-11-17T01:55:33Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。