論文の概要: 1.5 million materials narratives generated by chatbots
- arxiv url: http://arxiv.org/abs/2308.13687v1
- Date: Fri, 25 Aug 2023 22:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:46:24.464096
- Title: 1.5 million materials narratives generated by chatbots
- Title(参考訳): チャットボットが生み出した150万の資料物語
- Authors: Yang Jeong Park, Sung Eun Jerng, Jin-Sung Park, Choah Kwon, Chia-Wei
Hsu, Zhichu Ren, Sungroh Yoon, and Ju Li
- Abstract要約: 我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを作成した。
生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、スコア付けされた。
- 参考スコア(独自算出の注目度): 25.125848842769464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of artificial intelligence (AI) has enabled a comprehensive
exploration of materials for various applications. However, AI models often
prioritize frequently encountered materials in the scientific literature,
limiting the selection of suitable candidates based on inherent physical and
chemical properties. To address this imbalance, we have generated a dataset of
1,494,017 natural language-material paragraphs based on combined OQMD,
Materials Project, JARVIS, COD and AFLOW2 databases, which are dominated by ab
initio calculations and tend to be much more evenly distributed on the periodic
table. The generated text narratives were then polled and scored by both human
experts and ChatGPT-4, based on three rubrics: technical accuracy, language and
structure, and relevance and depth of content, showing similar scores but with
human-scored depth of content being the most lagging. The merger of
multi-modality data sources and large language model (LLM) holds immense
potential for AI frameworks to help the exploration and discovery of
solid-state materials for specific applications.
- Abstract(参考訳): 人工知能(AI)の出現は、様々な応用のための総合的な材料探索を可能にした。
しかし、AIモデルは科学文献で頻繁に遭遇する物質を優先し、固有の物理的および化学的性質に基づいて適切な候補の選択を制限する。
この不均衡に対処するため、我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを生成した。
生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、評価された。
マルチモダリティデータソースと大規模言語モデル(llm)の統合は、特定のアプリケーションのための固体材料の探索と発見を支援するaiフレームワークにとって大きな可能性を秘めている。
関連論文リスト
- From Tokens to Materials: Leveraging Language Models for Scientific Discovery [12.211984932142537]
本研究では, 材料科学における材料特性予測のための言語モデル埋め込みの適用について検討した。
本研究では、ドメイン固有モデル、特にMatBERTが、複合名や材料特性から暗黙的な知識を抽出する際の汎用モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:31:23Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - Materials Expert-Artificial Intelligence for Materials Discovery [39.67752644916519]
我々は,この人間の直感をカプセル化し,具体化するために,"Materials Expert-Artificial Intelligence"(ME-AI)を導入する。
ME-AIは専門家の直観を独立して再現し、それを拡張した。
私たちの成功は、機械学習に支援された材料発見を約束するものとして、“マシンボットによる人間の洞察”アプローチを指摘しています。
論文 参考訳(メタデータ) (2023-12-05T14:29:18Z) - MatChat: A Large Language Model and Application Service Platform for
Materials Science [18.55541324347915]
我々は、LLaMA2-7Bモデルのパワーを活用し、13,878個の構造化材料知識データを組み込んだ学習プロセスを通じて、LLaMA2-7Bモデルを強化する。
MatChatという名前のこの専門的なAIモデルは、無機物質合成経路の予測に焦点を当てている。
MatChatは現在オンラインでアクセス可能であり、モデルとアプリケーションフレームワークの両方をオープンソースとして利用できる。
論文 参考訳(メタデータ) (2023-10-11T05:11:46Z) - Leveraging Language Representation for Material Recommendation, Ranking,
and Exploration [0.0]
本稿では,言語モデルから派生した自然言語埋め込みを,構成的特徴と構造的特徴の表現として利用する材料発見フレームワークを提案する。
この枠組みを熱電学に適用することにより, 試作構造物の多種多様な推薦を行い, 未検討の高性能材料空間を同定する。
論文 参考訳(メタデータ) (2023-05-01T21:58:29Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Artificial Intelligence in Concrete Materials: A Scientometric View [77.34726150561087]
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の雑誌記事が、ウェブ・オブ・サイエンスから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
論文 参考訳(メタデータ) (2022-09-17T18:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。