Fugu-MT 論文翻訳(概要): Financial misstatement detection: a realistic evaluation

論文の概要: Financial misstatement detection: a realistic evaluation

arxiv url: http://arxiv.org/abs/2305.17457v1
Date: Sat, 27 May 2023 12:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 19:04:29.609508
Title: Financial misstatement detection: a realistic evaluation
Title（参考訳）: 財務的誤り検出:現実的な評価
Authors: Elias Zavitsanos, Dimitris Mavroeidis, Konstantinos Bougiatiotis, Eirini Spyropoulou, Lefteris Loukas, Georgios Paliouras
Abstract要約: 「この仕事は、文献では、財務報告の誤記検知としてしばしば言及される。」タスクのための新しい現実的な評価フレームワークを提案する。評価プロセスがシステム性能に大きく影響を与えることを示す。
参考スコア（独自算出の注目度）: 3.4253416336476246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we examine the evaluation process for the task of detecting financial reports with a high risk of containing a misstatement. This task is often referred to, in the literature, as ``misstatement detection in financial reports''. We provide an extensive review of the related literature. We propose a new, realistic evaluation framework for the task which, unlike a large part of the previous work: (a) focuses on the misstatement class and its rarity, (b) considers the dimension of time when splitting data into training and test and (c) considers the fact that misstatements can take a long time to detect. Most importantly, we show that the evaluation process significantly affects system performance, and we analyze the performance of different models and feature types in the new realistic framework.
Abstract（参考訳）: そこで本研究では,誤報を含むリスクの高い財務報告を検知するタスクの評価プロセスについて検討する。このタスクは、文献では「財務報告におけるミスステートメント検出」と呼ばれることが多い。関連文献を概観する。従来の作業の大部分とは違って,タスクに対する新たな現実的な評価フレームワークを提案する。 (a)不備クラスとその希少性に焦点を当てる。 b) データをトレーニングとテストに分割する際の時間次元を考慮し、 (c)誤言を検知するのに長い時間がかかるという事実を考える。最も重要な点は,評価プロセスがシステム性能に大きく影響することを示し,新しい現実的なフレームワークにおいて,異なるモデルや特徴型のパフォーマンスを分析することである。

関連論文リスト

Pitfalls in Evaluating Language Model Forecasters [45.439169161521406]
我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
論文参考訳（メタデータ） (2025-05-31T21:49:17Z)
Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文参考訳（メタデータ） (2025-05-31T19:43:00Z)
Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks [18.613353004764885]
本研究は,既存手法の限界に対する新たな知見を明らかにする。本稿では,推論経路の検査,多変量評価指標,人的性能との比較分析など,一連の評価基準を提案する。
論文参考訳（メタデータ） (2025-05-28T15:17:34Z)
Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
我々は,大規模シナリオ下での未学習モデルの表現に基づく評価を用いた新しい包括的評価を行う。我々の分析によると、現在の最先端の未学習アプローチは、未学習モデルの表現品質を完全に低下させるか、または完全に低下させる。本稿では,下流のタスククラスと意味的類似性を示す,移動学習の観点からの新たなアンラーニング評価手法を提案する。
論文参考訳（メタデータ） (2025-03-10T07:11:34Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows [0.0]
本研究では,部分フロー情報と完全フロー情報の臨界レンズによるネットワークセキュリティ脅威検出における機械学習モデルの有効性について検討した。標準ベンチマークモデルであるランダムフォレスト(Random Forest)が、様々なトレーニングおよびテスト条件下でどのように機能するかを評価する。
論文参考訳（メタデータ） (2024-07-03T07:14:25Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
The Challenges of Machine Learning for Trust and Safety: A Case Study on Misinformation Detection [0.8057006406834466]
信頼性と安全性の問題に機械学習を適用する際、奨学金と実践の切り離しについて検討する。本研究は,現場における248件の有能な論文からなるコーパスにおける誤情報の自動検出に関する文献調査である。完全自動検出における現在の最先端技術は、人為的誤報の検出において、限られた有効性を有すると結論づける。
論文参考訳（メタデータ） (2023-08-23T15:52:20Z)
Unsupervised Anomaly Detection in Time-series: An Extensive Evaluation and Analysis of State-of-the-art Methods [10.618572317896515]
時系列における教師なし異常検出は文献で広く研究されている。本稿では,近年の時系列における教師なし異常検出手法の詳細な評価手法を提案する。
論文参考訳（メタデータ） (2022-12-06T15:05:54Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文参考訳（メタデータ） (2022-07-14T17:46:37Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)
Active Surrogate Estimators: An Active Learning Approach to Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。 ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文参考訳（メタデータ） (2022-02-14T17:15:18Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)
Evaluating Predictive Business Process Monitoring Approaches on Small Event Logs [0.0]
予測的ビジネスプロセス監視は、実行中のプロセスインスタンスが実行時の完了までどのように展開されるかの予測に関係している。提案されたアプローチのほとんどは、さまざまな機械学習(ML)技術に依存している。本論文では,既存手法と小データセットの適合性を比較するための評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-01T09:36:04Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。