Fugu-MT 論文翻訳(概要): A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

論文の概要: A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

arxiv url: http://arxiv.org/abs/2603.04452v1
Date: Fri, 27 Feb 2026 13:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:10.89181
Title: A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science
Title（参考訳）: 燃焼科学における知識注入と大規模言語モデル評価のための統一的基礎的枠組み
Authors: Zonglin Yang, Runze Mao, Tianhao Wu, Han Li, QingGuo Zhou, Zhi X. Chen,
Abstract要約: 本研究は,燃焼コミュニティのためのドメイン特化モデルを開発するための,エンド・ツー・エンドのフレームワークを提案する。このフレームワークは、35億のスケールでAI対応のマルチモーダル知識ベースで構成され、20万以上のピアレビュー記事から抽出され、8,000の論文と論文、約40万行の燃焼CFDコードで構成されている。
参考スコア（独自算出の注目度）: 14.847613715315047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To advance foundation Large Language Models (LLMs) for combustion science, this study presents the first end-to-end framework for developing domain-specialized models for the combustion community. The framework comprises an AI-ready multimodal knowledge base at the 3.5 billion-token scale, extracted from over 200,000 peer-reviewed articles, 8,000 theses and dissertations, and approximately 400,000 lines of combustion CFD code; a rigorous and largely automated evaluation benchmark (CombustionQA, 436 questions across eight subfields); and a three-stage knowledge-injection pathway that progresses from lightweight retrieval-augmented generation (RAG) to knowledge-graph-enhanced retrieval and continued pretraining. We first quantitatively validate Stage 1 (naive RAG) and find a hard ceiling: standard RAG accuracy peaks at 60%, far surpassing zero-shot performance (23%) yet well below the theoretical upper bound (87%). We further demonstrate that this stage's performance is severely constrained by context contamination. Consequently, building a domain foundation model requires structured knowledge graphs and continued pretraining (Stages 2 and 3).
Abstract（参考訳）: 本研究では, 燃焼科学のための大規模言語モデル(LLM)の確立に向けて, 燃焼コミュニティのためのドメイン特化モデルを開発するための, エンド・ツー・エンドの枠組みを提案する。このフレームワークは、35億のスケールでAI対応のマルチモーダル知識ベースを持ち、20,000以上のピアレビュー記事から抽出され、8,000の論文と論文、約40,000行の燃焼CFDコードから抽出される。まず,ステージ1 (naive RAG) を定量的に検証し, 標準RAG精度は60%, ゼロショット性能 (23%) は理論上界 (87%) よりかなり低い値であった。さらに、このステージの性能は文脈汚染によって厳しく制約されていることを実証する。そのため、ドメイン基盤モデルの構築には構造化された知識グラフと継続的な事前学習が必要である(ステップ2と3)。

関連論文リスト

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文参考訳（メタデータ） (2025-10-21T17:46:14Z)
SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文参考訳（メタデータ） (2025-10-09T17:50:54Z)
GRID: Graph-based Reasoning for Intervention and Discovery in Built Environments [0.31096636737010974]
商業ビルにおける手動のHVAC故障診断には、インシデント毎に8～12時間かかり、診断精度は60%に過ぎません。本稿では,制約に基づく探索,ニューラル構造方程式モデリング,言語モデルなどを組み合わせた3段階の因果探索パイプラインGRIDについて述べる。このフレームワークは制約ベースの手法、ニューラルアーキテクチャ、ドメイン固有の言語モデルを統合し、分析を構築する際の観察と因果的なギャップに対処する。
論文参考訳（メタデータ） (2025-09-19T20:19:48Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training [0.0]
医学推論における最先端性能を実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。我々のモデルは、中規模のモデルが専門分野においてはるかに大きなモデルよりも優れた性能を発揮することを実証している。 Gazal-R1は、MedQAで87.1%、MMLU Proで81.6%、PubMedQAで79.6%、医療ベンチマークで例外的なパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-06-18T09:44:21Z)
ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。 ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文参考訳（メタデータ） (2025-06-02T13:19:09Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文参考訳（メタデータ） (2024-12-12T18:20:16Z)
Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education [14.368011453534596]
フリーテキストからのゼロショット知識グラフフレームワークであるGraphusionを紹介する。核融合モジュールは、エンティティのマージ、競合解決、新しい三重項発見を取り入れた三重項のグローバルなビューを提供する。本評価は,リンク予測における教師付きベースラインの精度を最大10%超えることを示す。
論文参考訳（メタデータ） (2024-07-15T15:13:49Z)
Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。 CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。 CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文参考訳（メタデータ） (2024-07-13T07:31:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。