論文の概要: Ontology-aligned structuring and reuse of multimodal materials data and workflows towards automatic reproduction
- arxiv url: http://arxiv.org/abs/2601.12582v1
- Date: Sun, 18 Jan 2026 20:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.689069
- Title: Ontology-aligned structuring and reuse of multimodal materials data and workflows towards automatic reproduction
- Title(参考訳): 自動再生に向けたマルチモーダル材料データとワークフローのオントロジー的構造化と再利用
- Authors: Sepideh Baghaee Ravari, Abril Azocar Guzman, Sarath Menon, Stefan Sandfeld, Tilmann Hickel, Markus Stricker,
- Abstract要約: 既存のテキストマイニング手法では、関連するパラメータを含む完全計算を抽出するには不十分である。
文献からの計算密度の自動抽出と構造化のための大規模言語モデル(LLM)支援フレームワークが導入された。
このフレームワークは、公表された結果を意味的に相互運用可能な形式で整理・コンテキスト化するための基盤を提供し、それによって計算材料データの透明性と再利用性を向上させる。
- 参考スコア(独自算出の注目度): 1.4658400971135652
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reproducibility of computational results remains a challenge in materials science, as simulation workflows and parameters are often reported only in unstructured text and tables. While literature data are valuable for validation and reuse, the lack of machine-readable workflow descriptions prevents large-scale curation and systematic comparison. Existing text-mining approaches are insufficient to extract complete computational workflows with their associated parameters. An ontology-driven, large language model (LLM)-assisted framework is introduced for the automated extraction and structuring of computational workflows from the literature. The approach focuses on density functional theory-based stacking fault energy (SFE) calculations in hexagonal close-packed magnesium and its binary alloys, and uses a multi-stage filtering strategy together with prompt-engineered LLM extraction applied to method sections and tables. Extracted information is unified into a canonical schema and aligned with established materials ontologies (CMSO, ASMO, and PLDO), enabling the construction of a knowledge graph using atomRDF. The resulting knowledge graph enables systematic comparison of reported SFE values and supports the structured reuse of computational protocols. While full computational reproducibility is still constrained by missing or implicit metadata, the framework provides a foundation for organizing and contextualizing published results in a semantically interoperable form, thereby improving transparency and reusability of computational materials data.
- Abstract(参考訳): シミュレーションのワークフローやパラメータは、構造化されていないテキストやテーブルでのみ報告されるため、計算結果の再現性は材料科学における課題である。
文献データは検証と再利用に有用であるが、機械可読なワークフロー記述の欠如は大規模なキュレーションと体系的な比較を妨げている。
既存のテキストマイニングアプローチは、関連するパラメータで完全な計算ワークフローを抽出するには不十分である。
文献からの計算ワークフローの自動抽出と構造化のために,オントロジー駆動の大規模言語モデル(LLM)支援フレームワークが導入された。
本手法は, 六方晶密充填マグネシウムとその二元合金における密度汎関数理論に基づく積層欠陥エネルギー(SFE)計算に着目し, 多段濾過法とプロンプトエンジニアリングLLM抽出法を用いる。
抽出された情報は、標準スキーマに統一され、確立された材料オントロジー(CMSO、ASMO、PLDO)と整合し、atomRDFを用いた知識グラフの構築を可能にする。
得られた知識グラフは、報告されたSFE値の体系的な比較を可能にし、計算プロトコルの構造化再利用をサポートする。
完全な計算再現性は、いまだに欠落または暗黙のメタデータによって制限されているが、このフレームワークは、公表された結果を意味的に相互運用可能な形で整理し、コンテキスト化するための基盤を提供し、計算材料データの透明性と再利用性を向上させる。
関連論文リスト
- Solving Context Window Overflow in AI Agents [0.0]
大規模言語モデル(LLM)は、外部ツールとのインタラクションが可能になり、トレーニングデータ以外の特別な知識にアクセスできるようになる。
トランケーションや要約のような既存のソリューションは完全な出力を保存することができず、完全なデータを必要とする作業には適さない。
本稿では,LLMが情報を失うことなく任意の長さのツール応答を処理し,利用できるようにする手法を提案する。
論文 参考訳(メタデータ) (2025-11-27T19:22:20Z) - LightKGG: Simple and Efficient Knowledge Graph Generation from Textual Data [0.0]
LightKGGは、小規模言語モデルを用いてテキストデータから効率的なKG抽出を可能にする新しいフレームワークである。
コンテキスト統合グラフ抽出は、コンテキスト情報をノードやエッジと統合したグラフ構造に統合する。
トポロジー強化関係推論は、抽出されたグラフの固有のトポロジーを利用して、効率的に関係を推測する。
論文 参考訳(メタデータ) (2025-10-27T13:55:13Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance [1.2749527861829046]
我々のフレームワークは知識グラフ(KG)とLarge Language Model(LLM)ベースのエージェントを統合している。
生のDESデータを意味的にリッチなKGに変換し、シミュレーションイベントとエンティティの関係をキャプチャする。
LLMベースのエージェントは反復推論を使用し、相互依存的なサブクエストを生成する。各サブクエストに対して、KGインタラクションのためのCypherクエリを生成し、情報を抽出し、エラーを修正する。
論文 参考訳(メタデータ) (2025-07-23T07:18:55Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。