論文の概要: Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study
- arxiv url: http://arxiv.org/abs/2408.11975v1
- Date: Wed, 21 Aug 2024 20:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 17:54:29.780916
- Title: Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study
- Title(参考訳): 歴史資料からの自動知識グラフ作成:チリ独裁を事例として
- Authors: Camila Díaz, Jocelyn Dunstan, Lorena Etcheverry, Antonia Fonck, Alejandro Grez, Domingo Mery, Juan Reutter, Hugo Rojas,
- Abstract要約: チリ独裁時代(1973-1990年)に関する歴史資料から知識グラフの自動構築に関する結果を示す。
我々のアプローチは、LLMを使ってエンティティとそれらのエンティティ間の関係を自動的に認識することである。
アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。
- 参考スコア(独自算出の注目度): 38.69658029480461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our results regarding the automatic construction of a knowledge graph from historical documents related to the Chilean dictatorship period (1973-1990). Our approach consists on using LLMs to automatically recognize entities and relations between these entities, and also to perform resolution between these sets of values. In order to prevent hallucination, the interaction with the LLM is grounded in a simple ontology with 4 types of entities and 7 types of relations. To evaluate our architecture, we use a gold standard graph constructed using a small subset of the documents, and compare this to the graph obtained from our approach when processing the same set of documents. Results show that the automatic construction manages to recognize a good portion of all the entities in the gold standard, and that those not recognized are mostly explained by the level of granularity in which the information is structured in the graph, and not because the automatic approach misses an important entity in the graph. Looking forward, we expect this report will encourage work on other similar projects focused on enhancing research in humanities and social science, but we remark that better evaluation metrics are needed in order to accurately fine-tune these types of architectures.
- Abstract(参考訳): 本稿では,チリ独裁時代(1973-1990)に関する歴史資料から知識グラフの自動構築について述べる。
提案手法は,LLMを用いてエンティティとエンティティ間の関係を自動的に認識し,それらの値集合間の解決を行う。
幻覚を防ぐために、LLMとの相互作用は4種類の実体と7種類の関係を持つ単純なオントロジーに基礎を置いている。
アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。
以上の結果から, 自動構築法は, 金本位制におけるすべての実体のかなりの部分を認識することができ, 認識されていないものは, 情報構造がグラフ上に存在する粒度のレベルによって主に説明され, 自動的なアプローチがグラフ内の重要な実体を欠いているためではない。
今後は、人文科学や社会科学の研究の充実に焦点をあてた同様のプロジェクトへの取り組みが期待されているが、これらのタイプのアーキテクチャを正確に調整するためには、より良い評価指標が必要である。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Rule-Guided Joint Embedding Learning over Knowledge Graphs [6.831227021234669]
本稿では,コンテキスト情報とリテラル情報の両方を実体と関係埋め込みに組み込んだ新しいモデルを提案する。
文脈情報については,信頼度と関連度を指標として重要度を評価する。
2つの確立されたベンチマークデータセットに対して、徹底的な実験を行い、モデル性能を検証する。
論文 参考訳(メタデータ) (2023-12-01T19:58:31Z) - Modeling Structural Similarities between Documents for Coherence
Assessment with Graph Convolutional Networks [17.853960157501742]
コヒーレンス(英語版)はテキスト品質の重要な側面であり、コヒーレンスモデリングに様々なアプローチが適用されている。
文書間の構造的類似性を捉えることができるGCNに基づくコヒーレンスモデルについて検討する。
提案手法を2つのタスクで評価し,談話コヒーレンスと自動エッセイスコアを評価する。
論文 参考訳(メタデータ) (2023-06-10T16:08:47Z) - Investigating Graph Structure Information for Entity Alignment with
Dangling Cases [31.779386064600956]
エンティティアライメントは、異なる知識グラフ(KG)における等価なエンティティを見つけることを目的としている。
Weakly-optimal Graph Contrastive Learning (WOGCL) と呼ばれる新しいエンティティアライメントフレームワークを提案する。
We show that WOGCL are outperforms the current-of-the-art method with pure structure information in traditional (relaxed) and dangling settings。
論文 参考訳(メタデータ) (2023-04-10T17:24:43Z) - KGLM: Integrating Knowledge Graph Structure in Language Models for Link
Prediction [0.0]
我々は、異なるエンティティと関係型を区別することを学ぶ新しいエンティティ/リレーション埋め込み層を導入する。
知識グラフから抽出したトリプルを用いて、この追加埋め込み層を用いて言語モデルをさらに事前学習し、続いて標準微調整フェーズにより、ベンチマークデータセット上のリンク予測タスクに対して、新しい最先端のパフォーマンスが設定されることを示す。
論文 参考訳(メタデータ) (2022-11-04T20:38:12Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Extracting Summary Knowledge Graphs from Long Documents [48.92130466606231]
本稿では,長い文書から要約された知識グラフを予測する新しいテキスト・ツー・グラフタスクを提案する。
自動アノテーションと人文アノテーションを用いた200k文書/グラフペアのデータセットを開発する。
論文 参考訳(メタデータ) (2020-09-19T04:37:33Z) - Reasoning with Latent Structure Refinement for Document-Level Relation
Extraction [20.308845516900426]
本稿では,潜在文書レベルグラフを自動的に誘導することにより,文間の関係推論を促進する新しいモデルを提案する。
具体的には、大規模文書レベルデータセット(DocRED)上でF1スコア59.05を達成する。
論文 参考訳(メタデータ) (2020-05-13T13:36:09Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。