論文の概要: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
- arxiv url: http://arxiv.org/abs/2309.04389v2
- Date: Mon, 11 Sep 2023 05:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:08:33.238190
- Title: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
- Title(参考訳): CSPRD:中国株式市場の金融政策検索データセット
- Authors: Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie, Yong Yu,
Yongjian Fei, Yue Huang and Dawei Cheng
- Abstract要約: 我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
- 参考スコア(独自算出の注目度): 61.59326951366202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, great advances in pre-trained language models (PLMs) have
sparked considerable research focus and achieved promising performance on the
approach of dense passage retrieval, which aims at retrieving relative passages
from massive corpus with given questions. However, most of existing datasets
mainly benchmark the models with factoid queries of general commonsense, while
specialised fields such as finance and economics remain unexplored due to the
deficiency of large-scale and high-quality datasets with expert annotations. In
this work, we propose a new task, policy retrieval, by introducing the Chinese
Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages
labeled by experienced experts with relevant articles from 10k+ entries in our
collected Chinese policy corpus. Experiments on lexical, embedding and
fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet
also suggests ample potential for improvement. Our best performing baseline
achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on
dev set.
- Abstract(参考訳): 近年,PLM (pre-trained language model) の大幅な進歩が研究の焦点となり,大規模コーパスからの相対的文節の検索を目的とした高密度な文節検索のアプローチに有望な成果を上げている。
しかし、既存のデータセットのほとんどは、一般的な常識の事実的クエリでモデルをベンチマークしているが、専門的なアノテーションによる大規模で高品質なデータセットの不足のため、金融や経済学のような専門分野は未検討のままである。
本研究では,中国政策コーパスの10k以上の項目から,経験豊富な専門家がラベル付けした700以上の索引情報を提供する中国株式政策検索データセット(csprd)を導入することで,新たな課題である政策検索を提案する。
語彙,埋め込み,微調整の両エンコーダモデルを用いた実験は,提案したCSPRDの有効性を示しているが,改善の可能性も十分示唆している。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
関連論文リスト
- CLongEval: A Chinese Benchmark for Evaluating Long-Context Large
Language Models [52.092128293192914]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based
Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。
複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。
Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-07T03:25:06Z) - A Comparative Study of Hierarchical Risk Parity Portfolio and Eigen
Portfolio on the NIFTY 50 Stocks [1.5773159234875098]
本稿では,インド株式市場の7分野における階層的リスクパリティアルゴリズムと固有ポートフォリオという2つのアプローチを用いたポートフォリオ最適化の体系的アプローチを提案する。
ポートフォリオのバックテストの結果は、HRPポートフォリオのパフォーマンスが、調査されたセクターの大部分のトレーニングデータとテストデータの両方において、そのパフォーマンスよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-10-03T14:51:24Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Whose AI Dream? In search of the aspiration in data annotation [12.454034525520497]
本稿では,インドにおける産業におけるデータアノテーションに関する業務実践について検討する。
以前の調査では、アノテータの主観性、偏見、効率性に主に焦点が当てられていた。
その結果,アノテータの作業は,ステーション上の他者の関心や優先順位,価値観によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-03-21T06:28:54Z) - Context-NER : Contextual Phrase Generation at Scale [4.7947627446578025]
文中のエンティティに関連するコンテキストを生成するタスクであるCONTEXT-NERを紹介する。
EDGAR10-Qデータセットは,100万文,2.8万エンティティ,平均35トークンを含む。
EDGAR10-Qで事前調整したT5-largeは,Headline,FPB,FiQA SAなどの下流財務タスクにおいてSOTA結果を得ることができ,バニラバージョンを10.81ポイント上回った。
論文 参考訳(メタデータ) (2021-09-16T16:10:05Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。