論文の概要: 1.5 million materials narratives generated by chatbots
- arxiv url: http://arxiv.org/abs/2308.13687v1
- Date: Fri, 25 Aug 2023 22:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:46:24.464096
- Title: 1.5 million materials narratives generated by chatbots
- Title(参考訳): チャットボットが生み出した150万の資料物語
- Authors: Yang Jeong Park, Sung Eun Jerng, Jin-Sung Park, Choah Kwon, Chia-Wei
Hsu, Zhichu Ren, Sungroh Yoon, and Ju Li
- Abstract要約: 我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを作成した。
生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、スコア付けされた。
- 参考スコア(独自算出の注目度): 25.125848842769464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of artificial intelligence (AI) has enabled a comprehensive
exploration of materials for various applications. However, AI models often
prioritize frequently encountered materials in the scientific literature,
limiting the selection of suitable candidates based on inherent physical and
chemical properties. To address this imbalance, we have generated a dataset of
1,494,017 natural language-material paragraphs based on combined OQMD,
Materials Project, JARVIS, COD and AFLOW2 databases, which are dominated by ab
initio calculations and tend to be much more evenly distributed on the periodic
table. The generated text narratives were then polled and scored by both human
experts and ChatGPT-4, based on three rubrics: technical accuracy, language and
structure, and relevance and depth of content, showing similar scores but with
human-scored depth of content being the most lagging. The merger of
multi-modality data sources and large language model (LLM) holds immense
potential for AI frameworks to help the exploration and discovery of
solid-state materials for specific applications.
- Abstract(参考訳): 人工知能(AI)の出現は、様々な応用のための総合的な材料探索を可能にした。
しかし、AIモデルは科学文献で頻繁に遭遇する物質を優先し、固有の物理的および化学的性質に基づいて適切な候補の選択を制限する。
この不均衡に対処するため、我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを生成した。
生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、評価された。
マルチモダリティデータソースと大規模言語モデル(llm)の統合は、特定のアプリケーションのための固体材料の探索と発見を支援するaiフレームワークにとって大きな可能性を秘めている。
関連論文リスト
- LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - Materials Expert-Artificial Intelligence for Materials Discovery [39.67752644916519]
我々は,この人間の直感をカプセル化し,具体化するために,"Materials Expert-Artificial Intelligence"(ME-AI)を導入する。
ME-AIは専門家の直観を独立して再現し、それを拡張した。
私たちの成功は、機械学習に支援された材料発見を約束するものとして、“マシンボットによる人間の洞察”アプローチを指摘しています。
論文 参考訳(メタデータ) (2023-12-05T14:29:18Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - MatChat: A Large Language Model and Application Service Platform for
Materials Science [18.55541324347915]
我々は、LLaMA2-7Bモデルのパワーを活用し、13,878個の構造化材料知識データを組み込んだ学習プロセスを通じて、LLaMA2-7Bモデルを強化する。
MatChatという名前のこの専門的なAIモデルは、無機物質合成経路の予測に焦点を当てている。
MatChatは現在オンラインでアクセス可能であり、モデルとアプリケーションフレームワークの両方をオープンソースとして利用できる。
論文 参考訳(メタデータ) (2023-10-11T05:11:46Z) - Leveraging Language Representation for Material Recommendation, Ranking,
and Exploration [0.0]
本稿では,言語モデルから派生した自然言語埋め込みを,構成的特徴と構造的特徴の表現として利用する材料発見フレームワークを提案する。
この枠組みを熱電学に適用することにより, 試作構造物の多種多様な推薦を行い, 未検討の高性能材料空間を同定する。
論文 参考訳(メタデータ) (2023-05-01T21:58:29Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Artificial Intelligence in Concrete Materials: A Scientometric View [77.34726150561087]
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の雑誌記事が、ウェブ・オブ・サイエンスから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
論文 参考訳(メタデータ) (2022-09-17T18:24:56Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。