Fugu-MT 論文翻訳(概要): The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

論文の概要: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

arxiv url: http://arxiv.org/abs/2006.03039v1
Date: Thu, 4 Jun 2020 17:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 09:17:44.855528
Title: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain
Title（参考訳）: 材料科学領域におけるSOFC-Expコーパスと情報抽出へのニューラルアプローチ
Authors: Annemarie Friedrich and Heike Adel and Federico Tomazic and Johannes Hingerl and Renou Benteau and Anika Maruscyk and Lukas Lange
Abstract要約: 我々は, 固体酸化物燃料電池に関する実験に関する情報を, 科学的出版物にマーキングするためのアノテーション・スキームを開発した。コーパスとアノテーション間の合意研究は、提案されたエンティティ認識の複雑さを実証する。我々は、新しいデータセットに基づいて対処できる様々なタスクに対して、強力なニューラルネットワークベースのモデルを提示します。
参考スコア（独自算出の注目度）: 11.085048329202335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a new challenging information extraction task in the domain of materials science. We develop an annotation scheme for marking information on experiments related to solid oxide fuel cells in scientific publications, such as involved materials and measurement conditions. With this paper, we publish our annotation guidelines, as well as our SOFC-Exp corpus consisting of 45 open-access scholarly articles annotated by domain experts. A corpus and an inter-annotator agreement study demonstrate the complexity of the suggested named entity recognition and slot filling tasks as well as high annotation quality. We also present strong neural-network based models for a variety of tasks that can be addressed on the basis of our new data set. On all tasks, using BERT embeddings leads to large performance gains, but with increasing task complexity, adding a recurrent neural network on top seems beneficial. Our models will serve as competitive baselines in future work, and analysis of their performance highlights difficult cases when modeling the data and suggests promising research directions.
Abstract（参考訳）: 本稿では,材料科学分野における新たな課題情報抽出課題を提案する。本研究では,固体酸化物燃料電池に関する実験に関する情報を,材料や測定条件などの科学論文にマークするためのアノテーションスキームを開発した。本稿では,本ガイドラインと,ドメインの専門家が注釈した45のオープンアクセス学術論文からなるSOFC-Expコーパスを公表する。コーパスとアノテーション間合意研究は、提案されたエンティティ認識とスロット充足タスクの複雑さと高いアノテーション品質を実証する。我々はまた、新しいデータセットに基づいて対処できる様々なタスクのための強力なニューラルネットワークベースのモデルも提示する。すべてのタスクにおいて、BERT埋め込みを使用すると、パフォーマンスが大きく向上するが、タスクの複雑さが増すため、上に繰り返しニューラルネットワークを追加することは有益である。我々のモデルは将来の作業において競争力のあるベースラインとして機能し、そのパフォーマンスの分析はデータのモデリングの難しさを浮き彫りにし、将来有望な研究方向性を示唆する。

関連論文リスト

Towards Agentic Intelligence for Materials Science [73.4576385477731]
この調査は、コーパスキュレーションからプレトレーニングから、シミュレーションと実験プラットフォームに面した目標条件付きエージェントまで、ユニークなパイプライン中心の視点を推し進める。コミュニティをブリッジし、参照の共有フレームを確立するために、まず、AIと材料科学をまたいだ用語、評価、ワークフローの段階を整列する統合レンズを提示する。
論文参考訳（メタデータ） (2026-01-29T23:48:43Z)
Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。 WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文参考訳（メタデータ） (2025-09-16T17:57:17Z)
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。 WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-20T17:53:37Z)
Materials Generation in the Era of Artificial Intelligence: A Comprehensive Survey [54.40267149907223]
材料は現代社会の基礎であり、エネルギー、エレクトロニクス、医療、交通、インフラの進歩を支えている。高度に調整された特性を持つ新しい材料を発見・設計する能力は、世界的課題の解決に不可欠である。データ駆動生成モデルは、事前定義された特性要件を満たす新しい材料を直接作成することによって、材料設計のための強力なツールを提供する。
論文参考訳（メタデータ） (2025-05-22T08:33:21Z)
Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。 SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文参考訳（メタデータ） (2025-03-18T02:14:49Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
Artificial Intuition: Efficient Classification of Scientific Abstracts [42.299140272218274]
短い科学的テキストは、解釈を助けるための豊富な知識を持つ専門家に、密集した情報を効率的に伝達する。このギャップに対処するために、我々は、粗いドメイン固有のラベルを生成し、適切に割り当てる新しいアプローチを開発した。本稿では,大規模言語モデル(LLM)が,補足的知識の強化に類似したプロセスにおいて,タスクに不可欠なメタデータを提供することを示す。
論文参考訳（メタデータ） (2024-07-08T16:34:47Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文参考訳（メタデータ） (2023-12-18T20:29:58Z)
CARE: Extracting Experimental Findings From Clinical Literature [29.763929941107616]
本研究は,臨床所見抽出のための新しいIEデータセットであるCAREを提示する。我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。臨床治験と症例報告の2つの資料から,700件の要約の広範な注釈を収集した。
論文参考訳（メタデータ） (2023-11-16T10:06:19Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文参考訳（メタデータ） (2023-10-24T07:23:46Z)
Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。 KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。 3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文参考訳（メタデータ） (2022-01-13T08:25:53Z)
Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文参考訳（メタデータ） (2020-12-14T18:41:58Z)
KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文参考訳（メタデータ） (2020-09-04T15:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。