論文の概要: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
- arxiv url: http://arxiv.org/abs/2309.04389v2
- Date: Mon, 11 Sep 2023 05:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:08:33.238190
- Title: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
- Title(参考訳): CSPRD:中国株式市場の金融政策検索データセット
- Authors: Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie, Yong Yu,
Yongjian Fei, Yue Huang and Dawei Cheng
- Abstract要約: 我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
- 参考スコア(独自算出の注目度): 61.59326951366202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, great advances in pre-trained language models (PLMs) have
sparked considerable research focus and achieved promising performance on the
approach of dense passage retrieval, which aims at retrieving relative passages
from massive corpus with given questions. However, most of existing datasets
mainly benchmark the models with factoid queries of general commonsense, while
specialised fields such as finance and economics remain unexplored due to the
deficiency of large-scale and high-quality datasets with expert annotations. In
this work, we propose a new task, policy retrieval, by introducing the Chinese
Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages
labeled by experienced experts with relevant articles from 10k+ entries in our
collected Chinese policy corpus. Experiments on lexical, embedding and
fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet
also suggests ample potential for improvement. Our best performing baseline
achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on
dev set.
- Abstract(参考訳): 近年,PLM (pre-trained language model) の大幅な進歩が研究の焦点となり,大規模コーパスからの相対的文節の検索を目的とした高密度な文節検索のアプローチに有望な成果を上げている。
しかし、既存のデータセットのほとんどは、一般的な常識の事実的クエリでモデルをベンチマークしているが、専門的なアノテーションによる大規模で高品質なデータセットの不足のため、金融や経済学のような専門分野は未検討のままである。
本研究では,中国政策コーパスの10k以上の項目から,経験豊富な専門家がラベル付けした700以上の索引情報を提供する中国株式政策検索データセット(csprd)を導入することで,新たな課題である政策検索を提案する。
語彙,埋め込み,微調整の両エンコーダモデルを用いた実験は,提案したCSPRDの有効性を示しているが,改善の可能性も十分示唆している。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Entity Extraction from High-Level Corruption Schemes via Large Language Models [4.820586736502356]
本稿では,ニュース記事中の個人や組織を識別するアルゴリズムとモデルのための,新しいマイクロベンチマークデータセットを提案する。
このデータセットを用いて、金融犯罪関連記事の個人や組織を特定するための実験的な取り組みも報告されている。
論文 参考訳(メタデータ) (2024-09-05T10:27:32Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking [59.87055275344965]
Job-SDFは、ジョブスキルの需要予測モデルをトレーニングし、ベンチマークするために設計されたデータセットである。
2021年から2023年にかけて、中国の大手オンライン求人プラットフォームから集められた1035万件の求人広告に基づいている。
本データセットは,職業,企業,地域レベルなど,さまざまな粒度でのスキル需要予測モデルの評価を可能にする。
論文 参考訳(メタデータ) (2024-06-17T07:22:51Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based
Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。
複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。
Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-07T03:25:06Z) - A Comparative Study of Hierarchical Risk Parity Portfolio and Eigen
Portfolio on the NIFTY 50 Stocks [1.5773159234875098]
本稿では,インド株式市場の7分野における階層的リスクパリティアルゴリズムと固有ポートフォリオという2つのアプローチを用いたポートフォリオ最適化の体系的アプローチを提案する。
ポートフォリオのバックテストの結果は、HRPポートフォリオのパフォーマンスが、調査されたセクターの大部分のトレーニングデータとテストデータの両方において、そのパフォーマンスよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-10-03T14:51:24Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Whose AI Dream? In search of the aspiration in data annotation [12.454034525520497]
本稿では,インドにおける産業におけるデータアノテーションに関する業務実践について検討する。
以前の調査では、アノテータの主観性、偏見、効率性に主に焦点が当てられていた。
その結果,アノテータの作業は,ステーション上の他者の関心や優先順位,価値観によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-03-21T06:28:54Z) - Context-NER : Contextual Phrase Generation at Scale [4.7947627446578025]
文中のエンティティに関連するコンテキストを生成するタスクであるCONTEXT-NERを紹介する。
EDGAR10-Qデータセットは,100万文,2.8万エンティティ,平均35トークンを含む。
EDGAR10-Qで事前調整したT5-largeは,Headline,FPB,FiQA SAなどの下流財務タスクにおいてSOTA結果を得ることができ,バニラバージョンを10.81ポイント上回った。
論文 参考訳(メタデータ) (2021-09-16T16:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。