論文の概要: Accelerating materials discovery for polymer solar cells: Data-driven
insights enabled by natural language processing
- arxiv url: http://arxiv.org/abs/2402.19462v1
- Date: Thu, 29 Feb 2024 18:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:12:57.908499
- Title: Accelerating materials discovery for polymer solar cells: Data-driven
insights enabled by natural language processing
- Title(参考訳): 高分子太陽電池の加速材料発見:自然言語処理によるデータ駆動的洞察
- Authors: Pranav Shetty, Aishat Adeboye, Sonakshi Gupta, Chao Zhang, Rampi
Ramprasad
- Abstract要約: 論文から高分子太陽電池特性データを抽出するために使用した自然言語処理パイプラインについて述べる。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
- 参考スコア(独自算出の注目度): 5.930004119126795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a natural language processing pipeline that was used to extract
polymer solar cell property data from the literature and simulate various
active learning strategies. While data-driven methods have been well
established to discover novel materials faster than Edisonian trial-and-error
approaches, their benefits have not been quantified. Our approach demonstrates
a potential reduction in discovery time by approximately 75 %, equivalent to a
15 year acceleration in material innovation. Our pipeline enables us to extract
data from more than 3300 papers which is ~5 times larger than similar data sets
reported by others. We also trained machine learning models to predict the
power conversion efficiency and used our model to identify promising
donor-acceptor combinations that are as yet unreported. We thus demonstrate a
workflow that goes from published literature to extracted material property
data which in turn is used to obtain data-driven insights. Our insights include
active learning strategies that can simultaneously optimize the material system
and train strong predictive models of material properties. This work provides a
valuable framework for research in material science.
- Abstract(参考訳): 本稿では,高分子太陽電池特性データを文献から抽出し,各種能動的学習戦略をシミュレートする自然言語処理パイプラインを提案する。
データ駆動手法はエジソンの試行錯誤アプローチよりも早く新しい物質を発見するために確立されているが、その利点は定量化されていない。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
私たちのパイプラインでは、3300以上の論文からデータを抽出することができます。
また、電力変換効率を予測するために機械学習モデルをトレーニングし、我々のモデルを使用して、まだ報告されていない有望なドナー/アクセプタの組み合わせを特定しました。
そこで本研究では,出版文献から抽出された資料データへのワークフローを実演し,そこからデータ駆動洞察を得る。
私たちの洞察には、物質システムの最適化と、材料特性の強い予測モデルを同時に訓練できるアクティブな学習戦略が含まれています。
この研究は物質科学の研究に貴重な枠組みを提供する。
関連論文リスト
- Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Benchmarking Active Learning Strategies for Materials Optimization and
Discovery [17.8738267360992]
本稿では,様々な獲得関数の形で,アクティブな学習戦略をベンチマークするための参照データセットを提案する。
本稿では,アルゴリズムの性能,材料探索空間,複雑さ,事前知識の具体化との関係について論じる。
論文 参考訳(メタデータ) (2022-04-12T14:27:33Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。