論文の概要: FinTree: Financial Dataset Pretrain Transformer Encoder for Relation
Extraction
- arxiv url: http://arxiv.org/abs/2307.13900v1
- Date: Wed, 26 Jul 2023 01:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:56:42.553783
- Title: FinTree: Financial Dataset Pretrain Transformer Encoder for Relation
Extraction
- Title(参考訳): FinTree: 関係抽出のための金融データセットプリトレイン変圧器エンコーダ
- Authors: Hyunjong Ok
- Abstract要約: ファイナンシャルデータセット上でFinTreeを事前トレーニングし、財務タスクのモデルを適用します。
FinTreeは、従来のドメイントークンの代わりにマスク付きトークンを予測する新しい構造で際立っている。
我々の実験は、FinTreeが大規模な財務関係抽出データセットであるREFinDより優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FinTree, Financial Dataset Pretrain Transformer Encoder for
Relation Extraction. Utilizing an encoder language model, we further pretrain
FinTree on the financial dataset, adapting the model in financial domain tasks.
FinTree stands out with its novel structure that predicts a masked token
instead of the conventional [CLS] token, inspired by the Pattern Exploiting
Training methodology. This structure allows for more accurate relation
predictions between two given entities. The model is trained with a unique
input pattern to provide contextual and positional information about the
entities of interest, and a post-processing step ensures accurate predictions
in line with the entity types. Our experiments demonstrate that FinTree
outperforms on the REFinD, a large-scale financial relation extraction dataset.
The code and pretrained models are available at
https://github.com/HJ-Ok/FinTree.
- Abstract(参考訳): 関係抽出のためのFinTree, Financial Dataset Pretrain Transformer Encoderを提案する。
エンコーダ言語モデルを用いることで、ファイナンシャルデータセット上でFinTreeをさらに事前訓練し、金融ドメインタスクにモデルを適用する。
FinTreeは、Pattern Exploiting Training方法論にインスパイアされた、従来の[CLS]トークンの代わりにマスク付きトークンを予測する新しい構造で際立っている。
この構造により、2つの与えられたエンティティ間のより正確な関係予測が可能になる。
モデルは、興味のあるエンティティに関する文脈的および位置的な情報を提供するために、ユニークな入力パターンで訓練され、後処理ステップはエンティティタイプに合わせて正確な予測を保証する。
本研究では,FinTreeが大規模金融関係抽出データセットREFinDより優れていることを示す。
コードと事前訓練されたモデルはhttps://github.com/HJ-Ok/FinTree.comで入手できる。
関連論文リスト
- PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities [0.848210898747543]
金融時系列モデリングは市場行動の理解と予測に不可欠である。
従来のモデルは、非線形性、非定常性、高ノイズレベルのために複雑なパターンを捉えるのに苦労している。
NLPにおける大きな言語モデルの成功に触発されて、$textbfPLUTUS$, a $textbfP$re-trained $textbfL$argeを紹介します。
PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Generative AI for End-to-End Limit Order Book Modelling: A Token-Level
Autoregressive Generative Model of Message Flow Using a Deep State Space
Network [7.54290390842336]
本稿では,トークン化制限順序帳(LOB)メッセージを生成するエンドツーエンドの自動回帰生成モデルを提案する。
NASDAQ の株式 LOB を用いて、メッセージデータのためのカスタムトークン化器を開発し、逐次桁の群をトークンに変換する。
結果は,低モデルパープレキシティによって証明されたように,データの分布を近似する上で有望な性能を示す。
論文 参考訳(メタデータ) (2023-08-23T09:37:22Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - FinRED: A Dataset for Relation Extraction in Financial Domain [23.700539609170015]
FinREDは金融ニュースから収集された関係抽出データセットであり、金融ドメインから関係を含むコールスクリプティングを取得する。
一般関係抽出データセットと比較してFinREDの性能は著しく低下している。
論文 参考訳(メタデータ) (2023-06-06T14:52:47Z) - Graph-Regularized Tensor Regression: A Domain-Aware Framework for
Interpretable Multi-Way Financial Modelling [23.030263841031633]
そこで我々は,グラフラプラシアン行列の形で,相互関係に関する知識をモデルに組み込む新しいグラフ正規化回帰(GRTR)フレームワークを開発した。
テンソル代数(英語版)により、提案されたフレームワークは係数と次元の両方で完全に解釈可能であることが示されている。
GRTRモデルは、マルチウェイの財務予測設定で検証され、計算コストの削減による性能向上が示されている。
論文 参考訳(メタデータ) (2022-10-26T13:39:08Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。