論文の概要: Extracting Polymer Nanocomposite Samples from Full-Length Documents
- arxiv url: http://arxiv.org/abs/2403.00260v1
- Date: Fri, 1 Mar 2024 03:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:13:35.587604
- Title: Extracting Polymer Nanocomposite Samples from Full-Length Documents
- Title(参考訳): 長大文書からの高分子ナノコンポジット試料の抽出
- Authors: Ghazal Khalighinejad, Defne Circi, L.C. Brinson, Bhuwan Dhingra
- Abstract要約: 本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
- 参考スコア(独自算出の注目度): 6.25070848511355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of large language models (LLMs) for
extracting sample lists of polymer nanocomposites (PNCs) from full-length
materials science research papers. The challenge lies in the complex nature of
PNC samples, which have numerous attributes scattered throughout the text. The
complexity of annotating detailed information on PNCs limits the availability
of data, making conventional document-level relation extraction techniques
impractical due to the challenge in creating comprehensive named entity span
annotations. To address this, we introduce a new benchmark and an evaluation
technique for this task and explore different prompting strategies in a
zero-shot manner. We also incorporate self-consistency to improve the
performance. Our findings show that even advanced LLMs struggle to extract all
of the samples from an article. Finally, we analyze the errors encountered in
this process, categorizing them into three main challenges, and discuss
potential strategies for future research to overcome them.
- Abstract(参考訳): 本稿では, 高分子ナノコンポジット (PNC) のサンプルリストの抽出に大規模言語モデル (LLM) を用いることを検討した。
この課題は、テキスト中に多くの属性が散在するPNCサンプルの複雑な性質にある。
PNCの詳細な情報を注釈付けすることの複雑さはデータの可用性を制限し、従来の文書レベルの関係抽出技術は、包括的なエンティティスパンアノテーションを作成することの難しさから実用的ではない。
そこで本研究では,この課題に対する新しいベンチマークと評価手法を導入し,ゼロショット方式で異なるプロンプト戦略を検討する。
パフォーマンス向上のために自己整合性も取り入れています。
以上の結果から,先進的なLSMでさえ,記事からすべてのサンプルを抽出するのに苦労していることがわかった。
最後に、このプロセスで発生したエラーを分析し、それらを3つの主な課題に分類し、それらを克服するための今後の研究のための潜在的な戦略について論じる。
関連論文リスト
- Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - Synthesizing Scientific Summaries: An Extractive and Abstractive Approach [0.5904095466127044]
論文要約のためのハイブリッド手法を提案する。
抽出段階では教師なし学習に基づく2つのモデルとトランスフォーマー言語モデルを用いる。
ハイパーパラメータの特定の組み合わせを用いることで、自動要約システムが人間によって書かれた要約の抽象性を超えることが可能であることが判明した。
論文 参考訳(メタデータ) (2024-07-29T08:21:42Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Prompting LLMs with content plans to enhance the summarization of
scientific articles [0.19183348587701113]
我々は要約システムを導くためのプロンプト手法を考案し、実装し、評価する。
記事から抽出したキーワードのリストを要約する。
結果,特に分割を個別に要約する小さなモデルでは,性能が向上した。
論文 参考訳(メタデータ) (2023-12-13T16:57:31Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。