論文の概要: Assessing the quality of information extraction
- arxiv url: http://arxiv.org/abs/2404.04068v1
- Date: Fri, 5 Apr 2024 12:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:05:12.564622
- Title: Assessing the quality of information extraction
- Title(参考訳): 情報抽出の品質評価
- Authors: Filip Seitl, Tomáš Kovářík, Soheyla Mirshahi, Jan Kryštůfek, Rastislav Dujava, Matúš Ondreička, Herbert Ullrich, Petr Gronat,
- Abstract要約: 本稿では,情報抽出の品質と完全性を評価するための自動フレームワークを提案する。
本稿では,大規模言語モデルの入力/出力サイズ制限をどう処理し,その性能を解析するかを論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models have notably enhanced the efficiency of information extraction from unstructured and semi-structured data sources. As these technologies become integral to various applications, establishing an objective measure for the quality of information extraction becomes imperative. However, the scarcity of labeled data presents significant challenges to this endeavor. In this paper, we introduce an automatic framework to assess the quality of the information extraction and its completeness. The framework focuses on information extraction in the form of entity and its properties. We discuss how to handle the input/output size limitations of the large language models and analyze their performance when iteratively extracting the information. Finally, we introduce metrics to evaluate the quality of the extraction and provide an extensive discussion on how to interpret the metrics.
- Abstract(参考訳): 大規模言語モデルの進歩は、構造化されていない、あるいは半構造化されていないデータソースからの情報抽出の効率を著しく向上させた。
これらの技術が様々な応用に不可欠なものとなるにつれて、情報抽出の質の客観的な尺度を確立することが不可欠となる。
しかし、ラベル付きデータの不足は、この取り組みに重大な課題をもたらしている。
本稿では,情報抽出の品質と完全性を評価するための自動フレームワークを提案する。
このフレームワークは、エンティティの形式での情報抽出とその特性に焦点を当てている。
本稿では,大規模言語モデルの入力/出力サイズ制限の扱い方と,情報を反復的に抽出する際の性能分析について論じる。
最後に、抽出の質を評価するためにメトリクスを導入し、メトリクスの解釈方法について広範囲に議論する。
関連論文リスト
- Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Structured Entity Extraction Using Large Language Models [52.281701191329]
大規模言語モデル(LLM)は、構造化されていないテキストから構造化された情報を抽出する上で重要な役割を果たす。
タスクをエンティティ中心にすることで、さまざまな視点からより多くの洞察を提供するさまざまなメトリクスの使用を可能にします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。