論文の概要: Extracting Polymer Nanocomposite Samples from Full-Length Documents
- arxiv url: http://arxiv.org/abs/2403.00260v1
- Date: Fri, 1 Mar 2024 03:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:13:35.587604
- Title: Extracting Polymer Nanocomposite Samples from Full-Length Documents
- Title(参考訳): 長大文書からの高分子ナノコンポジット試料の抽出
- Authors: Ghazal Khalighinejad, Defne Circi, L.C. Brinson, Bhuwan Dhingra
- Abstract要約: 本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
- 参考スコア(独自算出の注目度): 6.25070848511355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of large language models (LLMs) for
extracting sample lists of polymer nanocomposites (PNCs) from full-length
materials science research papers. The challenge lies in the complex nature of
PNC samples, which have numerous attributes scattered throughout the text. The
complexity of annotating detailed information on PNCs limits the availability
of data, making conventional document-level relation extraction techniques
impractical due to the challenge in creating comprehensive named entity span
annotations. To address this, we introduce a new benchmark and an evaluation
technique for this task and explore different prompting strategies in a
zero-shot manner. We also incorporate self-consistency to improve the
performance. Our findings show that even advanced LLMs struggle to extract all
of the samples from an article. Finally, we analyze the errors encountered in
this process, categorizing them into three main challenges, and discuss
potential strategies for future research to overcome them.
- Abstract(参考訳): 本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
PNCの詳細な情報を注釈付けすることの複雑さはデータの可用性を制限し、従来の文書レベルの関係抽出技術は、包括的なエンティティスパンアノテーションを作成することの難しさから実用的ではない。
そこで本研究では,この課題に対する新しいベンチマークと評価手法を導入し,ゼロショット方式で異なるプロンプト戦略を検討する。
パフォーマンス向上のために自己整合性も取り入れています。
以上の結果から,先進的なLSMでさえ,記事からすべてのサンプルを抽出するのに苦労していることがわかった。
最後に、このプロセスで発生したエラーを分析し、それらを3つの主な課題に分類し、それらを克服するための今後の研究のための潜在的な戦略について論じる。
関連論文リスト
- ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Prompting LLMs with content plans to enhance the summarization of
scientific articles [0.19183348587701113]
我々は要約システムを導くためのプロンプト手法を考案し、実装し、評価する。
記事から抽出したキーワードのリストを要約する。
結果,特に分割を個別に要約する小さなモデルでは,性能が向上した。
論文 参考訳(メタデータ) (2023-12-13T16:57:31Z) - CARE: Extracting Experimental Findings From Clinical Literature [31.932111815835412]
CAREは文献から臨床所見を抽出するためのIEデータセットである。
我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。
我々は、データセット上で様々な最先端のIEシステムの性能をベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T10:06:19Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [98.76021956492697]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。