論文の概要: Large Language Models for Semantic Monitoring of Corporate Disclosures:
A Case Study on Korea's Top 50 KOSPI Companies
- arxiv url: http://arxiv.org/abs/2309.00208v1
- Date: Fri, 1 Sep 2023 01:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:40:43.706858
- Title: Large Language Models for Semantic Monitoring of Corporate Disclosures:
A Case Study on Korea's Top 50 KOSPI Companies
- Title(参考訳): 企業開示のセマンティックモニタリングのための大規模言語モデル:韓国のKOSPI企業トップ50を事例として
- Authors: Junwon Sung, Woojin Heo, Yunkyung Byun, Youngsam Kim
- Abstract要約: OpenAIのGPT-3.5-turboやGPT-4のような最先端の言語モデルは、複雑なタスクを自動化する前例のない機会を提供する。
本研究は、韓国の文脈における企業情報開示のセマンティック分析におけるこれらのモデルの有効性について考察する。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing domain of artificial intelligence, state-of-the-art
language models such as OpenAI's GPT-3.5-turbo and GPT-4 offer unprecedented
opportunities for automating complex tasks. This research paper delves into the
capabilities of these models for semantically analyzing corporate disclosures
in the Korean context, specifically for timely disclosure. The study focuses on
the top 50 publicly traded companies listed on the Korean KOSPI, based on
market capitalization, and scrutinizes their monthly disclosure summaries over
a period of 17 months. Each summary was assigned a sentiment rating on a scale
ranging from 1(very negative) to 5(very positive). To gauge the effectiveness
of the language models, their sentiment ratings were compared with those
generated by human experts. Our findings reveal a notable performance disparity
between GPT-3.5-turbo and GPT-4, with the latter demonstrating significant
accuracy in human evaluation tests. The Spearman correlation coefficient was
registered at 0.61, while the simple concordance rate was recorded at 0.82.
This research contributes valuable insights into the evaluative characteristics
of GPT models, thereby laying the groundwork for future innovations in the
field of automated semantic monitoring.
- Abstract(参考訳): 人工知能の急速な進歩の中で、OpenAIのGPT-3.5-turboやGPT-4のような最先端の言語モデルは、複雑なタスクを自動化する前例のない機会を提供する。
本研究は、韓国の文脈における企業情報開示を意味論的に分析するこれらのモデルの有効性について考察する。
この調査は、市場資本化に基づく韓国のKOSPIに上場する上場企業上位50社に焦点を当て、17カ月にわたって月次公開サマリーを精査する。
各要約には、1(非常にネガティブ)から5(非常にポジティブ)までの尺度で感情評価が割り当てられた。
言語モデルの有効性を評価するため、その評価は人間の専門家が作成したものと比較した。
以上の結果より, GPT-3.5-turbo と GPT-4 の間に顕著な性能差が認められた。
スピアマン相関係数は0.61で、単純一致率は0.82で記録された。
本研究は、GPTモデルの評価特性に関する貴重な知見を提供し、自動化セマンティックモニタリング分野における今後のイノベーションの基盤となる。
関連論文リスト
- Optimizing Performance: How Compact Models Match or Exceed GPT's Classification Capabilities through Fine-Tuning [0.0]
非生成の小型モデルは、ゼロショット学習設定でGPT-3.5およびGPT-4モデルより優れている。
細調整されたモデルは、市場感情を決定するタスクに基づいて微調整されたときに、GPT-3.5に匹敵する結果を示す。
論文 参考訳(メタデータ) (2024-08-22T09:10:43Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Information Redundancy and Biases in Public Document Information
Extraction Benchmarks [0.0]
公開ベンチマークで微調整された場合、KIEモデルの優れたパフォーマンスにもかかわらず、十分な文書アノテーションが欠如している複雑な実生活のユースケースを一般化するのに依然として苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
論文 参考訳(メタデータ) (2023-04-28T15:48:26Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。