論文の概要: Element2Vec: Build Chemical Element Representation from Text for Property Prediction
- arxiv url: http://arxiv.org/abs/2510.13916v1
- Date: Wed, 15 Oct 2025 08:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.540211
- Title: Element2Vec: Build Chemical Element Representation from Text for Property Prediction
- Title(参考訳): Element2Vec: プロパティ予測のためのテキストからの化学元素表現の構築
- Authors: Yuanhao Li, Keyuan Lai, Tianqi Wang, Qihao Liu, Jiawei Ma, Yuan-Chao Hu,
- Abstract要約: 化学元素の物性データは材料設計と製造に不可欠である。
従来の手法では、他の要素の性質や関連する性質を数値解析による予測に用いているが、複雑な関係のモデル化に失敗することが多い。
近年,プロパティ推定のための言語モデルなど,高度なAIツールの探索が試みられている。
- 参考スコア(独自算出の注目度): 25.8519584732975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate property data for chemical elements is crucial for materials design and manufacturing, but many of them are difficult to measure directly due to equipment constraints. While traditional methods use the properties of other elements or related properties for prediction via numerical analyses, they often fail to model complex relationships. After all, not all characteristics can be represented as scalars. Recent efforts have been made to explore advanced AI tools such as language models for property estimation, but they still suffer from hallucinations and a lack of interpretability. In this paper, we investigate Element2Vecto effectively represent chemical elements from natural languages to support research in the natural sciences. Given the text parsed from Wikipedia pages, we use language models to generate both a single general-purpose embedding (Global) and a set of attribute-highlighted vectors (Local). Despite the complicated relationship across elements, the computational challenges also exist because of 1) the discrepancy in text distribution between common descriptions and specialized scientific texts, and 2) the extremely limited data, i.e., with only 118 known elements, data for specific properties is often highly sparse and incomplete. Thus, we also design a test-time training method based on self-attention to mitigate the prediction error caused by Vanilla regression clearly. We hope this work could pave the way for advancing AI-driven discovery in materials science.
- Abstract(参考訳): 化学元素の正確な特性データは材料設計や製造には不可欠であるが, 機器の制約により直接測定することは困難である。
従来の手法では、他の要素の性質や関連する性質を数値解析による予測に用いているが、複雑な関係のモデル化に失敗することが多い。
結局のところ、全ての特徴がスカラーとして表現できるわけではない。
資産推定のための言語モデルのような先進的なAIツールの研究は近年行われているが、幻覚や解釈可能性の欠如に悩まされている。
本稿では,自然科学研究を支援するために,自然言語から化学成分を効果的に表現するElement2Vectoについて検討する。
ウィキペディアページから解析されたテキストから、言語モデルを用いて単一の汎用埋め込み(Global)と属性ハイライトベクタ(Local)の両方を生成する。
要素間の複雑な関係にもかかわらず、計算上の課題も存在している。
1)共通記述と専門的な科学文献のテキスト分布の相違
2) 非常に限られたデータ、すなわち118個の既知の要素しか持たない、特定の特性に関するデータは、しばしばスパースで不完全である。
そこで本研究では,バニラ回帰による予測誤差を緩和するために,自己注意に基づくテストタイムトレーニング手法を設計する。
この研究が、物質科学におけるAI駆動の発見を前進させる道を開くことを願っている。
関連論文リスト
- From Text to Graph: Leveraging Graph Neural Networks for Enhanced Explainability in NLP [3.864700176441583]
本研究では,自然言語処理タスクにおける説明可能性を実現するための新しい手法を提案する。
自動的に文をグラフに変換し、ノードや関係を通じて意味を維持する。
実験は、与えられた分類のためのテキスト構造の中で最も重要なコンポーネントを決定するための有望な結果をもたらした。
論文 参考訳(メタデータ) (2025-04-02T18:55:58Z) - Data-efficient and Interpretable Inverse Materials Design using a Disentangled Variational Autoencoder [2.563209727695243]
逆材料設計は、新しい物質発見の加速に成功している。
多くの逆材料設計法では、教材表現のコンパクトな記述を提供するために潜在空間を学習する教師なし学習を用いる。
本稿では,不整合変分オートエンコーダをベースとした半教師付き学習手法を提案し,特徴,潜伏変数,対象特性の確率的関係を学習する。
論文 参考訳(メタデータ) (2024-09-10T02:21:13Z) - 1.5 million materials narratives generated by chatbots [25.125848842769464]
我々はOQMD, Materials Project, JARVIS, COD, AFLOW2データベースを組み合わせた1,494,017の自然言語教材のデータセットを作成した。
生成されたテキストの物語は、人間の専門家とChatGPT-4によって、技術的正確性、言語と構造、コンテンツの関連性と深さという3つのルーブリックに基づいてポーリングされ、スコア付けされた。
論文 参考訳(メタデータ) (2023-08-25T22:00:53Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。