論文の概要: Challenges in Expanding Portuguese Resources: A View from Open Information Extraction
- arxiv url: http://arxiv.org/abs/2501.11851v1
- Date: Tue, 21 Jan 2025 03:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:09.837114
- Title: Challenges in Expanding Portuguese Resources: A View from Open Information Extraction
- Title(参考訳): ポルトガルの資源拡大への挑戦 : オープン情報抽出の視点から
- Authors: Marlo Souza, Bruno Cabral, Daniela Claro, Lais Salvador,
- Abstract要約: ポルトガル語におけるオープン情報抽出のための高品質な注釈付きコーパスを提案する。
アノテーションプロセスで直面する課題について議論し、構造的および文脈的アノテーションルールのセットを提案し、コーパスを検証する。
- 参考スコア(独自算出の注目度): 0.774971301405295
- License:
- Abstract: Open Information Extraction (Open IE) is the task of extracting structured information from textual documents, independent of domain. While traditional Open IE methods were based on unsupervised approaches, recently, with the emergence of robust annotated datasets, new data-based approaches have been developed to achieve better results. These innovations, however, have focused mainly on the English language due to a lack of datasets and the difficulty of constructing such resources for other languages. In this work, we present a high-quality manually annotated corpus for Open Information Extraction in the Portuguese language, based on a rigorous methodology grounded in established semantic theories. We discuss the challenges encountered in the annotation process, propose a set of structural and contextual annotation rules, and validate our corpus by evaluating the performance of state-of-the-art Open IE systems. Our resource addresses the lack of datasets for Open IE in Portuguese and can support the development and evaluation of new methods and systems in this area.
- Abstract(参考訳): Open Information extract (Open IE)は、ドメインに依存しない文書から構造化された情報を抽出するタスクである。
従来のOpen IEメソッドは教師なしのアプローチに基づいていたが、最近、ロバストなアノテーション付きデータセットの出現に伴い、より良い結果を得るために新しいデータベースのアプローチが開発された。
しかし、これらの革新は、データセットの欠如と、他の言語のためにそのようなリソースを構築することの難しさのために、主に英語に焦点を当てている。
本研究では,ポルトガル語におけるオープン情報抽出のための高品質な注釈付きコーパスを,確立された意味論に基づく厳密な方法論に基づいて提示する。
我々は、アノテーションプロセスで直面する課題について議論し、構造的および文脈的アノテーションルールのセットを提案し、最先端のオープンIEシステムの性能を評価することによって、私たちのコーパスを検証する。
ポルトガルにおけるOpen IEのデータセットの欠如に対処し,この領域における新しい手法とシステムの開発と評価を支援する。
関連論文リスト
- Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks [12.400599440431188]
自然言語処理(NLP)における情報抽出(IE)の役割
英語IEタスクに焦点をあてた最近の実験は、LLM(Large Language Models)が最適性能を達成する上で直面する課題に光を当てている。
論文 参考訳(メタデータ) (2024-06-04T08:00:40Z) - IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus [38.27122981449957]
IEPileは、約0.32Bのトークンを含む包括的バイリンガル(英語と中国語)IE命令コーパスである。
我々は,既存のIEデータセット33件の収集とクリーニングによってIEPileを構築し,大規模なコーパスを探索するためにスキーマベースの命令生成を導入する。
IEPileはIE向けのLLMの性能を向上し、ゼロショットの一般化を顕著に改善した。
論文 参考訳(メタデータ) (2024-02-22T17:11:38Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - PIVOINE: Instruction Tuning for Open-world Information Extraction [53.98073623222221]
構造化されていないテキストから包括的エンティティプロファイルを抽出するオープンワールド情報抽出(オープンワールドIE)の問題を考える。
我々は,オープンワールドIEを動作させ,自然言語命令を特徴とする目的のエンティティプロファイルを抽出できる大規模言語モデル(LLM)を開発した。
特にINSTRUCTOPENWIKIは,包括的コーパス,豊富なアノテーション,多種多様な命令を満載したオープンワールドIE向け指導チューニングデータセットである。
論文 参考訳(メタデータ) (2023-05-24T08:52:08Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - A Survey on Open Information Extraction from Rule-based Model to Large Language Model [29.017823043117144]
オープン情報抽出(OpenIE)は、構造化されていないテキストから構造化情報を引き出すための重要なNLPタスクである。
本調査では,2007年から2024年までのOpenIE技術の概要を概説し,時系列的視点を強調した。
この記事では、OpenIEアプローチをルールベース、ニューラル、トレーニング済みの大規模言語モデルに分類し、時系列フレームワーク内でそれぞれについて議論する。
論文 参考訳(メタデータ) (2022-08-18T08:03:45Z) - A Survey on Neural Open Information Extraction: Current Status and
Future Directions [87.30702606041407]
Open Information extract (OpenIE) は、大規模コーパスからの関係事実のドメインに依存しない発見を容易にする。
我々は、最先端のニューラルなOpenIEモデル、その設計決定、強み、弱点について概観する。
論文 参考訳(メタデータ) (2022-05-24T02:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。