論文の概要: OPENXRD: A Comprehensive Benchmark and Enhancement Framework for LLM/MLLM XRD Question Answering
- arxiv url: http://arxiv.org/abs/2507.09155v1
- Date: Sat, 12 Jul 2025 06:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.561285
- Title: OPENXRD: A Comprehensive Benchmark and Enhancement Framework for LLM/MLLM XRD Question Answering
- Title(参考訳): OPENXRD: LLM/MLLM XRD質問応答のための総合ベンチマークと拡張フレームワーク
- Authors: Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim,
- Abstract要約: OPENXRDは、結晶学的質問応答用に設計されたオープンブックパイプラインである。
テキストプロンプトとGPT-4.5で生成された簡潔なサポートコンテンツを統合する。
GPT-4.5生成サマリーを用いたモデルでは,精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 24.412026925186566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents OPENXRD, an open-book pipeline designed for crystallography question answering, which integrates textual prompts with concise supporting content generated by GPT-4.5. Instead of using scanned textbooks, which may lead to copyright issues, OPENXRD generates compact, domain-specific references that help smaller models understand key concepts in X-ray diffraction (XRD). We evaluate OPENXRD on a well-defined set of 217 expert-level XRD questions by comparing different vision-language models, including GPT-4 and LLaVA-based frameworks such as Mistral, LLaMA, and QWEN, under both closed-book (without supporting material) and open-book (with supporting material) conditions. Our experimental results show significant accuracy improvements in models that use the GPT-4.5-generated summaries, particularly those with limited prior training in crystallography. OPENXRD uses knowledge from larger models to fill knowledge gaps in crystallography and shows that AI-generated texts can help smaller models reason more effectively in scientific tasks. While the current version of OPENXRD focuses on text-based inputs, we also explore future extensions such as adding real crystal diagrams or diffraction patterns to improve interpretation in specialized materials science contexts. Overall, OPENXRD shows that specialized open-book systems can be useful in materials science and provides a foundation for broader natural language processing (NLP) tools in critical scientific fields.
- Abstract(参考訳): 本研究は,GPT-4.5で生成した簡潔なサポートコンテンツとテキストプロンプトを統合した,結晶学的質問応答のためのオープンブックパイプラインであるOPENXRDを提示する。
スキャンされた教科書を使う代わりに、OPENXRDはコンパクトでドメイン固有の参照を生成し、小さなモデルでX線回折(XRD)の主要な概念を理解するのに役立つ。
OPENXRDを217件のエキスパートレベルのXRD質問に対して,GPT-4とLLaVAベースのフレームワークであるMistral,LLaMA,QWENを,クローズドブック(サポート資料なし)とオープンブック(サポート資料なし)の条件下で比較することにより評価した。
実験結果から, GPT-4.5生成サマリーを用いたモデル, 特に結晶学の事前訓練が限定されたモデルにおいて, 精度が著しく向上したことが示された。
OPENXRDは、結晶学における知識ギャップを埋めるために、より大きなモデルからの知識を使用し、AIによって生成されたテキストが、より小さなモデルを科学的タスクにおいてより効果的に推論するのに役立つことを示す。
OPENXRDの現在のバージョンはテキストベースの入力に焦点を当てているが、特殊な材料科学の文脈における解釈を改善するために、実際の結晶図や回折パターンの追加などの将来の拡張についても検討する。
OPENXRDは、特殊なオープンブックシステムが材料科学に有用であることを示し、重要な科学分野におけるより広範な自然言語処理(NLP)ツールの基礎を提供する。
関連論文リスト
- Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table [60.78615287040791]
XAStructは結晶構造からXASスペクトルを予測し、XAS入力から局所構造記述子を推測できる学習フレームワークである。
XAStructは、周期表全体にわたって70以上の要素にまたがる大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-06-13T15:58:05Z) - Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM [8.941718961724984]
Pseudo-Knowledge Graph (PKG)フレームワークはメタパス検索、イングラフテキスト、ベクトル検索を大規模言語モデルに統合する。
PKGはより豊かな知識表現を提供し、情報検索の精度を向上させる。
論文 参考訳(メタデータ) (2025-03-01T02:39:37Z) - Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions [0.0]
ダイアグラムは、ビジネスドキュメント内の複雑な関係やプロセスを視覚的に伝達する上で重要な役割を担います。
近年の視覚言語モデル(VLM)の様々な画像理解タスクの進歩にもかかわらず、図中の構造を正確に識別し抽出することは大きな課題である。
本研究では,VLMの視覚認識能力への依存を回避し,テキスト駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-05T23:40:26Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - AMGPT: a Large Language Model for Contextual Querying in Additive Manufacturing [8.799005406006287]
AMGPTは、金属添加物製造クエリ用に設計された特殊なLCMテキストジェネレータである。
我々は、スクラッチからトレーニングする代わりに、Hugging Faceからトレーニング済みのLlama2-7BモデルをRetrieval-Augmented Generation (RAG)セットアップで採用する。
論文 参考訳(メタデータ) (2024-05-24T20:03:32Z) - Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models [51.98253148764755]
我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。
ArXivQAは、科学的な数値に基づいてGPT-4Vを誘導することによって生成される質問応答データセットである。
論文 参考訳(メタデータ) (2024-03-01T02:21:30Z) - Large Language Models for Scientific Information Extraction: An
Empirical Study for Virology [0.0]
談話に基づく学術コミュニケーションにおける構造的・意味的内容表現の利用を擁護する。
ウィキペディアのインフォボックスや構造化されたAmazon製品記述といったツールにヒントを得て、構造化された学術貢献要約を生成するための自動アプローチを開発しました。
以上の結果から,FLAN-T5のパラメータは現状のGPT-davinciよりも1000倍少ないことが示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:04:55Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。