論文の概要: Incorporating Domain Knowledge into Materials Tokenization
- arxiv url: http://arxiv.org/abs/2506.11115v1
- Date: Mon, 09 Jun 2025 04:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.477031
- Title: Incorporating Domain Knowledge into Materials Tokenization
- Title(参考訳): ドメイン知識を教材化に取り入れる
- Authors: Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee,
- Abstract要約: MATTERは、物質知識をトークン化に統合する新しいトークン化アプローチである。
材料知識ベースで訓練されたMatDetectorに基づいて、MATTERは識別された材料概念の構造的整合性を維持している。
- 参考スコア(独自算出の注目度): 18.888009894128686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While language models are increasingly utilized in materials science, typical models rely on frequency-centric tokenization methods originally developed for natural language processing. However, these methods frequently produce excessive fragmentation and semantic loss, failing to maintain the structural and semantic integrity of material concepts. To address this issue, we propose MATTER, a novel tokenization approach that integrates material knowledge into tokenization. Based on MatDetector trained on our materials knowledge base and a re-ranking method prioritizing material concepts in token merging, MATTER maintains the structural integrity of identified material concepts and prevents fragmentation during tokenization, ensuring their semantic meaning remains intact. The experimental results demonstrate that MATTER outperforms existing tokenization methods, achieving an average performance gain of $4\%$ and $2\%$ in the generation and classification tasks, respectively. These results underscore the importance of domain knowledge for tokenization strategies in scientific text processing. Our code is available at https://github.com/yerimoh/MATTER
- Abstract(参考訳): 言語モデルは材料科学でますます活用されているが、典型的なモデルは元々自然言語処理のために開発された周波数中心のトークン化法に依存している。
しかし、これらの手法は、しばしば過剰な断片化と意味喪失を生じさせ、物質概念の構造的・意味的整合性を維持するのに失敗する。
この問題に対処するために,物質知識をトークン化に統合する新しいトークン化手法であるMATTERを提案する。
物質知識ベースに基づいてトレーニングされたMatDetectorと、トークンマージにおいて物質概念を優先する再分類手法に基づいて、MATTERは、識別された物質概念の構造的整合性を維持し、トークン化中の断片化を防止し、意味的意味がそのままであることを保証する。
実験の結果,MATTER は既存のトークン化手法より優れており,生成タスクと分類タスクの平均性能は 4 %$ と 2 %$ であることがわかった。
これらの結果は、学術テキスト処理におけるトークン化戦略におけるドメイン知識の重要性を浮き彫りにした。
私たちのコードはhttps://github.com/yerimoh/MATTERで利用可能です。
関連論文リスト
- Protoknowledge Shapes Behaviour of LLMs in Downstream Tasks: Memorization and Generalization with Knowledge Graphs [1.9249287163937978]
本稿では,知識グラフを符号化したトークンのシーケンスが事前学習中に内部化される方法の定式化と測定を行うために,protoknowledgeの概念を導入する。
我々は,アクティベートが必要な知識の種類によって異なる,語彙的,階層的,トポロジ的な形式に分類する。
論文 参考訳(メタデータ) (2025-05-21T13:22:34Z) - From Tokens to Materials: Leveraging Language Models for Scientific Discovery [12.211984932142537]
本研究では, 材料科学における材料特性予測のための言語モデル埋め込みの適用について検討した。
本研究では、ドメイン固有モデル、特にMatBERTが、複合名や材料特性から暗黙的な知識を抽出する際の汎用モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:31:23Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [63.48785461956983]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - FecTek: Enhancing Term Weight in Lexicon-Based Retrieval with Feature Context and Term-level Knowledge [54.61068946420894]
FEature Context と TErm レベルの知識モジュールを導入して,革新的な手法を提案する。
項重みの特徴コンテキスト表現を効果的に強化するために、FCM(Feature Context Module)が導入された。
また,用語レベルの知識を効果的に活用し,用語重みのモデル化プロセスをインテリジェントに導くための用語レベルの知識誘導モジュール(TKGM)を開発した。
論文 参考訳(メタデータ) (2024-04-18T12:58:36Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。