論文の概要: Harmful Terms and Where to Find Them: Measuring and Modeling Unfavorable Financial Terms and Conditions in Shopping Websites at Scale
- arxiv url: http://arxiv.org/abs/2502.01798v1
- Date: Mon, 03 Feb 2025 20:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:51:52.988793
- Title: Harmful Terms and Where to Find Them: Measuring and Modeling Unfavorable Financial Terms and Conditions in Shopping Websites at Scale
- Title(参考訳): 有害な用語と発見の場所:大規模ショッピングサイトにおける好ましくない財務条件と条件の測定とモデル化
- Authors: Elisa Tsai, Neal Mangaokar, Boyuan Zheng, Haizhong Zheng, Atul Prakash,
- Abstract要約: 現在、好ましくない財務条件に関連するタイプや潜在的なリスクについて、包括的な理解がない。
我々は、購入、買収後、アカウントの終了、法的側面の4つのカテゴリーから22種類の分類法を開発する。
TextitTermLensは、LLM(Large Language Models)を使用して、好ましくない財務用語を識別する自動検出装置です。
- 参考スコア(独自算出の注目度): 10.191584182342103
- License:
- Abstract: Terms and conditions for online shopping websites often contain terms that can have significant financial consequences for customers. Despite their impact, there is currently no comprehensive understanding of the types and potential risks associated with unfavorable financial terms. Furthermore, there are no publicly available detection systems or datasets to systematically identify or mitigate these terms. In this paper, we take the first steps toward solving this problem with three key contributions. \textit{First}, we introduce \textit{TermMiner}, an automated data collection and topic modeling pipeline to understand the landscape of unfavorable financial terms. \textit{Second}, we create \textit{ShopTC-100K}, a dataset of terms and conditions from shopping websites in the Tranco top 100K list, comprising 1.8 million terms from 8,251 websites. Consequently, we develop a taxonomy of 22 types from 4 categories of unfavorable financial terms -- spanning purchase, post-purchase, account termination, and legal aspects. \textit{Third}, we build \textit{TermLens}, an automated detector that uses Large Language Models (LLMs) to identify unfavorable financial terms. Fine-tuned on an annotated dataset, \textit{TermLens} achieves an F1 score of 94.6\% and a false positive rate of 2.3\% using GPT-4o. When applied to shopping websites from the Tranco top 100K, we find that 42.06\% of these sites contain at least one unfavorable financial term, with such terms being more prevalent on less popular websites. Case studies further highlight the financial risks and customer dissatisfaction associated with unfavorable financial terms, as well as the limitations of existing ecosystem defenses.
- Abstract(参考訳): オンラインショッピングウェブサイトの用語と条件は、顧客にとって重大な経済的影響をもたらす用語を含むことが多い。
その影響にもかかわらず、現時点では、好ましくない財務条件に関連するタイプや潜在的なリスクについて、包括的な理解がない。
さらに、これらの用語を体系的に識別または緩和する、パブリックな検出システムやデータセットは存在しない。
本稿では,この問題を解決するための第一歩として,3つの重要なコントリビューションを挙げる。
これは、自動化されたデータ収集とトピックモデリングパイプラインで、好ましくない財務用語の風景を理解する。
これは、Trancoのトップ100Kリストにあるショッピングサイトからの用語と条件のデータセットで、8,251のWebサイトから180万の用語で構成されています。
その結果,購入後,買収後,会計終了,法的側面の4つのカテゴリーから22種類の分類を作成した。
これは、LLM(Large Language Models)を使用して、好ましくない財務用語を識別する自動検出器である。
注釈付きデータセットで微調整された \textit{TermLens} は GPT-4o を用いて F1 スコア94.6\% と偽陽性率2.3\% を達成する。
Trancoのトップ100Kのショッピングサイトに適用すると、これらのサイトのうち42.06 %は少なくとも1つの好ましくない財務用語を含んでおり、あまり人気のないウェブサイトではそのような用語が普及している。
ケーススタディでは、好ましくない金融条件に伴う金融リスクと顧客の不満、および既存の生態系防衛の限界をさらに強調している。
関連論文リスト
- Greenback Bears and Fiscal Hawks: Finance is a Jungle and Text Embeddings Must Adapt [7.489263049434943]
提案するBAM埋め込みは,14.3Mクエリパスペアのデータセットに微調整されたテキスト埋め込みの集合である。
BAM埋め込みは、保持されたテストセットで62.8%のRecall@1を達成するが、OpenAIから最高の汎用テキスト埋め込みでは39.2%しか得られない。
論文 参考訳(メタデータ) (2024-11-11T17:13:28Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - Learning Semantic Text Similarity to rank Hypernyms of Financial Terms [0.23940819037450983]
本稿では,財務用語のハイパニムを抽出・ランク付けできるシステムを提案する。
このシステムは、DBpediaのような様々な情報源から得られた財務的なテキストコーパスで訓練されている。
負のサンプルでトレーニングセットを増強するために、新しいアプローチが使用されている。
論文 参考訳(メタデータ) (2023-03-20T16:53:36Z) - DSC-IITISM at FinCausal 2021: Combining POS tagging with Attention-based
Contextual Representations for Identifying Causal Relationships in Financial
Documents [0.0]
因果検出は、情報検索、イベント予測、質問応答、財務分析、市場調査に応用されている。
本研究では,変換器を用いて財務文書の因果関係を同定し,抽出する手法について検討する。
最適手法は, ブラインドテストにおけるF1スコア0.9551, Exact Matchスコア0.8777を達成する。
論文 参考訳(メタデータ) (2021-10-31T13:09:19Z) - Conservative Policy Construction Using Variational Autoencoders for
Logged Data with Missing Values [77.99648230758491]
特徴属性に値が欠けている場合にログデータを用いてパーソナライズされたポリシーを構築することの問題点を考察する。
目標は、値が不足している$Xt$の劣化したバージョンである$Xb$が観測された場合、アクションを推奨することである。
特に,不確かさによる不確実性に対処するためにポリシーを設計したテキスト保守戦略を導入する。
論文 参考訳(メタデータ) (2021-09-08T16:09:47Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Term Expansion and FinBERT fine-tuning for Hypernym and Synonym Ranking
of Financial Terms [0.0]
本稿では,ハイパニムと同義語対応問題を解くシステムを提案する。
IJCAI-2021におけるFinNLPワークショップの共有作業であるFinSim-3に参加するために,これらのシステムを設計した。
我々の最高のパフォーマンスモデル(精度:0.917、ランク:1.156)は、FIBOのラベル階層を用いて作成された拡張ラベルセット上で、微調整されたSentenceBERT(Reimers et al., 2019)によって開発された。
論文 参考訳(メタデータ) (2021-07-29T06:17:44Z) - NLP in FinTech Applications: Past, Present and Future [50.27357144360525]
金融分野における自然言語処理(NLP)技術の適用に関する研究に焦点をあてる。
アプリケーションシナリオは、Know Your Customer(KYC)、Know Your Product(KYP)、Satify Your Customer(SYC)の3つの側面から見ていきます。
論文 参考訳(メタデータ) (2020-05-04T08:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。