論文の概要: Accelerating materials discovery for polymer solar cells: Data-driven insights enabled by natural language processing
- arxiv url: http://arxiv.org/abs/2402.19462v2
- Date: Sat, 22 Jun 2024 03:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:41:44.309380
- Title: Accelerating materials discovery for polymer solar cells: Data-driven insights enabled by natural language processing
- Title(参考訳): 高分子太陽電池の材料発見の加速:自然言語処理によるデータ駆動的洞察
- Authors: Pranav Shetty, Aishat Adeboye, Sonakshi Gupta, Chao Zhang, Rampi Ramprasad,
- Abstract要約: 本稿では, 高分子太陽電池ドナー/アクセプターペアの発見のための各種能動的学習手法のシミュレーションを行う。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
- 参考スコア(独自算出の注目度): 5.527358421206627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simulation of various active learning strategies for the discovery of polymer solar cell donor/acceptor pairs using data extracted from the literature spanning $\sim$20 years by a natural language processing pipeline. While data-driven methods have been well established to discover novel materials faster than Edisonian trial-and-error approaches, their benefits have not been quantified for material discovery problems that can take decades. Our approach demonstrates a potential reduction in discovery time by approximately 75 %, equivalent to a 15 year acceleration in material innovation. Our pipeline enables us to extract data from greater than 3300 papers which is $\sim$5 times larger and therefore more diverse than similar data sets reported by others. We also trained machine learning models to predict the power conversion efficiency and used our model to identify promising donor-acceptor combinations that are as yet unreported. We thus demonstrate a pipeline that goes from published literature to extracted material property data which in turn is used to obtain data-driven insights. Our insights include active learning strategies that can be used to train strong predictive models of material properties or be robust to the initial material system used. This work provides a valuable framework for data-driven research in materials science.
- Abstract(参考訳): 本稿では, 自然言語処理パイプラインを用いて20年間にわたる文献から抽出したデータを用いて, 高分子太陽電池ドナー/アクセプターペアの発見のための各種能動的学習手法のシミュレーションを行う。
データ駆動法はエジソンの試行錯誤法よりも早く新しい物質を発見するために確立されているが、その利点は何十年もかかる物質発見問題に対して定量化されていない。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
私たちのパイプラインでは、3300以上の論文からデータを抽出することができます。
また、電力変換効率を予測するために機械学習モデルをトレーニングし、我々のモデルを使用して、まだ報告されていない有望なドナー/アクセプタの組み合わせを特定しました。
そこで我々は,論文から抽出した資料データへのパイプラインを実証し,そのパイプラインがデータ駆動の洞察を得るために使用されることを示した。
私たちの洞察には、物質特性の強い予測モデルをトレーニングしたり、使用した初期材料システムに対して堅牢であるような、アクティブな学習戦略が含まれています。
この研究は、材料科学におけるデータ駆動研究のための貴重なフレームワークを提供する。
関連論文リスト
- SciQu: Accelerating Materials Properties Prediction with Automated Literature Mining for Self-Driving Laboratories [0.7673339435080445]
特定の属性を予測するために異なる材料特性を評価することは、材料科学に基づく応用の基本的な要件である。
本研究は,機械学習を利用して材料特性を高精度かつ効率的に解析することにより,これらの課題に対処する。
データ抽出を自動化し、抽出した情報を用いて機械学習モデルを訓練することにより、開発したSciQuは材料特性を最適化する。
論文 参考訳(メタデータ) (2024-07-11T08:12:46Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models [5.748877272090607]
大規模言語モデル(LLM)は、人間がテキストと対話する方法を変えつつある。
本研究では,全文研究論文から資料データを抽出する簡便かつ効率的な手法を実証する。
このアプローチでは、抽出されたプロパティに関するコーディングや事前の知識は最小限から不要である。
結果のデータベースにおいて、高いリコールとほぼ完璧な精度を提供する。
論文 参考訳(メタデータ) (2023-02-09T19:56:37Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。