論文の概要: Nearest Neighbor Search over Vectorized Lexico-Syntactic Patterns for
Relation Extraction from Financial Documents
- arxiv url: http://arxiv.org/abs/2310.17714v1
- Date: Thu, 26 Oct 2023 18:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:59:59.511867
- Title: Nearest Neighbor Search over Vectorized Lexico-Syntactic Patterns for
Relation Extraction from Financial Documents
- Title(参考訳): 財務文書からの関係抽出のためのベクトル化レクシコ・シンタティックパターンに基づく最寄り探索
- Authors: Pawan Kumar Rajpoot, Ankur Parikh
- Abstract要約: そこで本研究では, 近縁な近接探索により, 試行時間における学習関係を概説する簡単な手法を提案する。
我々は、REFinDに対するアプローチを評価し、その手法が最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 1.068607542484439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation extraction (RE) has achieved remarkable progress with the help of
pre-trained language models. However, existing RE models are usually incapable
of handling two situations: implicit expressions and long-tail relation
classes, caused by language complexity and data sparsity. Further, these
approaches and models are largely inaccessible to users who don't have direct
access to large language models (LLMs) and/or infrastructure for supervised
training or fine-tuning. Rule-based systems also struggle with implicit
expressions. Apart from this, Real world financial documents such as various
10-X reports (including 10-K, 10-Q, etc.) of publicly traded companies pose
another challenge to rule-based systems in terms of longer and complex
sentences. In this paper, we introduce a simple approach that consults training
relations at test time through a nearest-neighbor search over dense vectors of
lexico-syntactic patterns and provides a simple yet effective means to tackle
the above issues. We evaluate our approach on REFinD and show that our method
achieves state-of-the-art performance. We further show that it can provide a
good start for human in the loop setup when a small number of annotations are
available and it is also beneficial when domain experts can provide high
quality patterns.
- Abstract(参考訳): 関係抽出(re)は、事前学習された言語モデルの助けを借りて、著しく進歩した。
しかし、既存のreモデルは、通常2つの状況を扱うことができない。暗黙的な表現と、言語の複雑さとデータのスパーシティによって引き起こされるロングテール関係クラスである。
さらに、これらのアプローチやモデルは、大きな言語モデル(llm)や、教師付きトレーニングや微調整のためのインフラストラクチャに直接アクセスできないユーザにはほとんどアクセスできない。
ルールベースのシステムは暗黙の表現にも苦労する。
これとは別に、上場企業の10-Xレポート(10-K、10-Qなど)などの現実世界の財務文書は、より長く複雑な文でルールベースのシステムにまた別の課題をもたらす。
本稿では,レキシコ・シンタクティック・パターンの高密度ベクトルを最寄りで探索することで,テスト時のトレーニング関係を相談する簡単なアプローチを提案し,上記の課題に対処するためのシンプルかつ効果的な手段を提供する。
精錬アプローチを評価し,その手法が最先端の性能を達成していることを示す。
さらに、少数のアノテーションが利用できる場合、ループ設定で人間に良いスタートを提供することができ、また、ドメインの専門家が高品質なパターンを提供することができれば有益であることを示す。
関連論文リスト
- Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。
我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文 参考訳(メタデータ) (2024-11-05T07:12:36Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。