Fugu-MT 論文翻訳(概要): Assessing the quality of information extraction

論文の概要: Assessing the quality of information extraction

arxiv url: http://arxiv.org/abs/2404.04068v1
Date: Fri, 5 Apr 2024 12:51:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 16:05:12.564622
Title: Assessing the quality of information extraction
Title（参考訳）: 情報抽出の品質評価
Authors: Filip Seitl, Tomáš Kovářík, Soheyla Mirshahi, Jan Kryštůfek, Rastislav Dujava, Matúš Ondreička, Herbert Ullrich, Petr Gronat,
Abstract要約: 本稿では,情報抽出の品質と完全性を評価するための自動フレームワークを提案する。本稿では,大規模言語モデルの入力/出力サイズ制限をどう処理し,その性能を解析するかを論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in large language models have notably enhanced the efficiency of information extraction from unstructured and semi-structured data sources. As these technologies become integral to various applications, establishing an objective measure for the quality of information extraction becomes imperative. However, the scarcity of labeled data presents significant challenges to this endeavor. In this paper, we introduce an automatic framework to assess the quality of the information extraction and its completeness. The framework focuses on information extraction in the form of entity and its properties. We discuss how to handle the input/output size limitations of the large language models and analyze their performance when iteratively extracting the information. Finally, we introduce metrics to evaluate the quality of the extraction and provide an extensive discussion on how to interpret the metrics.
Abstract（参考訳）: 大規模言語モデルの進歩は、構造化されていない、あるいは半構造化されていないデータソースからの情報抽出の効率を著しく向上させた。これらの技術が様々な応用に不可欠なものとなるにつれて、情報抽出の質の客観的な尺度を確立することが不可欠となる。しかし、ラベル付きデータの不足は、この取り組みに重大な課題をもたらしている。本稿では,情報抽出の品質と完全性を評価するための自動フレームワークを提案する。このフレームワークは、エンティティの形式での情報抽出とその特性に焦点を当てている。本稿では,大規模言語モデルの入力/出力サイズ制限の扱い方と,情報を反復的に抽出する際の性能分析について論じる。最後に、抽出の質を評価するためにメトリクスを導入し、メトリクスの解釈方法について広範囲に議論する。

関連論文リスト

OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG [32.31189584872992]
一般に、検索された情報は、その質問に関連していると仮定される。回答生成における検索情報の関連性を考慮することが重要である。我々は,検索した情報の明示的な評価を,生成のための品質指標として活用する新しい手法であるOpenDecoderを提案する。
論文参考訳（メタデータ） (2026-01-13T23:26:30Z)
Data Therapist: Eliciting Domain Knowledge from Subject Matter Experts Using Large Language Models [17.006423792670414]
我々は、ドメインの専門家が混在開始プロセスを通じて暗黙の知識を外部化するのに役立つWebベースのツールであるData Therapistを紹介します。得られた構造化知識ベースは、人間と自動化された可視化設計の両方に通知することができる。
論文参考訳（メタデータ） (2025-05-01T11:10:17Z)
Leveraging Large Language Models for Mobile App Review Feature Extraction [4.879919005707447]
本研究では,エンコーダのみの大規模言語モデルがモバイルアプリレビューから特徴抽出を促進できるという仮説を考察する。クラウドソーシングされたアノテーションを産業的文脈から活用することにより、特徴抽出を教師付きトークン分類タスクとして再定義する。実験により,抽出した特徴の精度とリコールが向上し,性能効率が向上することが確認された。
論文参考訳（メタデータ） (2024-08-02T07:31:57Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文参考訳（メタデータ） (2024-04-29T14:52:38Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文参考訳（メタデータ） (2023-12-21T14:20:06Z)
Fine-tuning and aligning question answering models for complex information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文参考訳（メタデータ） (2023-09-26T10:02:21Z)
Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2023-06-27T11:33:31Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文参考訳（メタデータ） (2022-03-11T02:37:35Z)
Extracting Semantic Process Information from the Natural Language in Event Logs [0.1827510863075184]
本稿では、イベントデータの意味的役割ラベリングという手法を提案する。この方法では,イベント毎に最大8つの意味的役割に関する情報を抽出する。
論文参考訳（メタデータ） (2021-03-06T08:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。