論文の概要: Accelerating materials discovery for polymer solar cells: Data-driven
insights enabled by natural language processing
- arxiv url: http://arxiv.org/abs/2402.19462v1
- Date: Thu, 29 Feb 2024 18:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:12:57.908499
- Title: Accelerating materials discovery for polymer solar cells: Data-driven
insights enabled by natural language processing
- Title(参考訳): 高分子太陽電池の加速材料発見:自然言語処理によるデータ駆動的洞察
- Authors: Pranav Shetty, Aishat Adeboye, Sonakshi Gupta, Chao Zhang, Rampi
Ramprasad
- Abstract要約: 論文から高分子太陽電池特性データを抽出するために使用した自然言語処理パイプラインについて述べる。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
- 参考スコア(独自算出の注目度): 5.930004119126795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a natural language processing pipeline that was used to extract
polymer solar cell property data from the literature and simulate various
active learning strategies. While data-driven methods have been well
established to discover novel materials faster than Edisonian trial-and-error
approaches, their benefits have not been quantified. Our approach demonstrates
a potential reduction in discovery time by approximately 75 %, equivalent to a
15 year acceleration in material innovation. Our pipeline enables us to extract
data from more than 3300 papers which is ~5 times larger than similar data sets
reported by others. We also trained machine learning models to predict the
power conversion efficiency and used our model to identify promising
donor-acceptor combinations that are as yet unreported. We thus demonstrate a
workflow that goes from published literature to extracted material property
data which in turn is used to obtain data-driven insights. Our insights include
active learning strategies that can simultaneously optimize the material system
and train strong predictive models of material properties. This work provides a
valuable framework for research in material science.
- Abstract(参考訳): 本稿では,高分子太陽電池特性データを文献から抽出し,各種能動的学習戦略をシミュレートする自然言語処理パイプラインを提案する。
データ駆動手法はエジソンの試行錯誤アプローチよりも早く新しい物質を発見するために確立されているが、その利点は定量化されていない。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
私たちのパイプラインでは、3300以上の論文からデータを抽出することができます。
また、電力変換効率を予測するために機械学習モデルをトレーニングし、我々のモデルを使用して、まだ報告されていない有望なドナー/アクセプタの組み合わせを特定しました。
そこで本研究では,出版文献から抽出された資料データへのワークフローを実演し,そこからデータ駆動洞察を得る。
私たちの洞察には、物質システムの最適化と、材料特性の強い予測モデルを同時に訓練できるアクティブな学習戦略が含まれています。
この研究は物質科学の研究に貴重な枠組みを提供する。
関連論文リスト
- Data-driven development of cycle prediction models for lithium metal batteries using multi modal mining [1.2748196295556375]
ABC(Automatic Battery Data Collector)を用いた新しいマルチモーダルデータ駆動方式を提案する。
このプラットフォームは、現在最先端のバッテリ材料データとサイクリング性能メトリクスの正確な抽出を可能にする。
ABCプラットフォームによるデータベースから,リチウム金属電池の容量と安定性を正確に予測できる機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-11-26T17:37:12Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models [5.748877272090607]
大規模言語モデル(LLM)は、人間がテキストと対話する方法を変えつつある。
本研究では,全文研究論文から資料データを抽出する簡便かつ効率的な手法を実証する。
このアプローチでは、抽出されたプロパティに関するコーディングや事前の知識は最小限から不要である。
結果のデータベースにおいて、高いリコールとほぼ完璧な精度を提供する。
論文 参考訳(メタデータ) (2023-02-09T19:56:37Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。