Fugu-MT 論文翻訳(概要): CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market

論文の概要: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market

arxiv url: http://arxiv.org/abs/2309.04389v2
Date: Mon, 11 Sep 2023 05:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 18:08:33.238190
Title: CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
Title（参考訳）: CSPRD:中国株式市場の金融政策検索データセット
Authors: Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie, Yong Yu, Yongjian Fei, Yue Huang and Dawei Cheng
Abstract要約: 我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。 CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
参考スコア（独自算出の注目度）: 61.59326951366202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, great advances in pre-trained language models (PLMs) have sparked considerable research focus and achieved promising performance on the approach of dense passage retrieval, which aims at retrieving relative passages from massive corpus with given questions. However, most of existing datasets mainly benchmark the models with factoid queries of general commonsense, while specialised fields such as finance and economics remain unexplored due to the deficiency of large-scale and high-quality datasets with expert annotations. In this work, we propose a new task, policy retrieval, by introducing the Chinese Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages labeled by experienced experts with relevant articles from 10k+ entries in our collected Chinese policy corpus. Experiments on lexical, embedding and fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet also suggests ample potential for improvement. Our best performing baseline achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on dev set.
Abstract（参考訳）: 近年,PLM (pre-trained language model) の大幅な進歩が研究の焦点となり,大規模コーパスからの相対的文節の検索を目的とした高密度な文節検索のアプローチに有望な成果を上げている。しかし、既存のデータセットのほとんどは、一般的な常識の事実的クエリでモデルをベンチマークしているが、専門的なアノテーションによる大規模で高品質なデータセットの不足のため、金融や経済学のような専門分野は未検討のままである。本研究では,中国政策コーパスの10k以上の項目から,経験豊富な専門家がラベル付けした700以上の索引情報を提供する中国株式政策検索データセット(csprd)を導入することで,新たな課題である政策検索を提案する。語彙,埋め込み,微調整の両エンコーダモデルを用いた実験は,提案したCSPRDの有効性を示しているが,改善の可能性も十分示唆している。我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。

関連論文リスト

Enhancing Financial Time-Series Forecasting with Retrieval-Augmented Large Language Models [29.769616823587594]
金融時系列予測に特化して設計された最初の検索拡張世代(RAG)フレームワークを提案する。フレームワークには3つの重要なイノベーションが含まれている: 微調整された1B大言語モデル(StockLLM)をバックボーンとし、LSMフィードバックによって拡張された新しい候補選択方法と、クエリと歴史的に重要なシーケンスとの類似性を最大化するトレーニング目標である。
論文参考訳（メタデータ） (2025-02-09T12:26:05Z)
Leveraging Large Language Models to Democratize Access to Costly Financial Datasets for Academic Research [0.0]
GPT-4o-mini を用いた新たな手法の開発と評価を行った。提案手法は,約1万件のプロキシステートメントとCAM(Critical Audit Matters)から1万2000件以上の10-Kの書類から,CEOの給与比率を収集する上で,人間レベルの精度を実現する。これは、手作業による収集に要する数百時間や、商用データベースのサブスクリプションに要する数千ドルとは対照的である。
論文参考訳（メタデータ） (2024-12-03T00:59:56Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Entity Extraction from High-Level Corruption Schemes via Large Language Models [4.820586736502356]
本稿では,ニュース記事中の個人や組織を識別するアルゴリズムとモデルのための,新しいマイクロベンチマークデータセットを提案する。このデータセットを用いて、金融犯罪関連記事の個人や組織を特定するための実験的な取り組みも報告されている。
論文参考訳（メタデータ） (2024-09-05T10:27:32Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。 100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking [59.87055275344965]
Job-SDFは、ジョブスキルの需要予測モデルをトレーニングし、ベンチマークするために設計されたデータセットである。 2021年から2023年にかけて、中国の大手オンライン求人プラットフォームから集められた1035万件の求人広告に基づいている。本データセットは,職業,企業,地域レベルなど,さまざまな粒度でのスキル需要予測モデルの評価を可能にする。
論文参考訳（メタデータ） (2024-06-17T07:22:51Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。 Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文参考訳（メタデータ） (2023-10-07T03:25:06Z)
A Comparative Study of Hierarchical Risk Parity Portfolio and Eigen Portfolio on the NIFTY 50 Stocks [1.5773159234875098]
本稿では,インド株式市場の7分野における階層的リスクパリティアルゴリズムと固有ポートフォリオという2つのアプローチを用いたポートフォリオ最適化の体系的アプローチを提案する。ポートフォリオのバックテストの結果は、HRPポートフォリオのパフォーマンスが、調査されたセクターの大部分のトレーニングデータとテストデータの両方において、そのパフォーマンスよりも優れていることを示している。
論文参考訳（メタデータ） (2022-10-03T14:51:24Z)
Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。 PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文参考訳（メタデータ） (2022-04-19T15:45:23Z)
Whose AI Dream? In search of the aspiration in data annotation [12.454034525520497]
本稿では,インドにおける産業におけるデータアノテーションに関する業務実践について検討する。以前の調査では、アノテータの主観性、偏見、効率性に主に焦点が当てられていた。その結果,アノテータの作業は,ステーション上の他者の関心や優先順位,価値観によって決定されることがわかった。
論文参考訳（メタデータ） (2022-03-21T06:28:54Z)
Context-NER : Contextual Phrase Generation at Scale [4.7947627446578025]
文中のエンティティに関連するコンテキストを生成するタスクであるCONTEXT-NERを紹介する。 EDGAR10-Qデータセットは,100万文,2.8万エンティティ,平均35トークンを含む。 EDGAR10-Qで事前調整したT5-largeは,Headline,FPB,FiQA SAなどの下流財務タスクにおいてSOTA結果を得ることができ,バニラバージョンを10.81ポイント上回った。
論文参考訳（メタデータ） (2021-09-16T16:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。