論文の概要: Zero-Shot Text Matching for Automated Auditing using Sentence
Transformers
- arxiv url: http://arxiv.org/abs/2211.07716v1
- Date: Fri, 28 Oct 2022 11:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:59:54.239616
- Title: Zero-Shot Text Matching for Automated Auditing using Sentence
Transformers
- Title(参考訳): 文変換器を用いた自動監査のためのゼロショットテキストマッチング
- Authors: David Biesner, Maren Pielka, Rajkumar Ramamurthy, Tim Dilmaghani,
Bernd Kliem, R\"udiger Loitz, Rafet Sifa
- Abstract要約: 本稿では, トランスフォーマーモデルであるSentence-Bertを用いた教師なしテキストマッチングの効率について, 財務パスのセマンティックな類似性に適用することによって検討する。
実験結果から,本モデルはドメイン内および外部データからの文書に対して堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 0.3078691410268859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing methods have several applications in automated
auditing, including document or passage classification, information retrieval,
and question answering. However, training such models requires a large amount
of annotated data which is scarce in industrial settings. At the same time,
techniques like zero-shot and unsupervised learning allow for application of
models pre-trained using general domain data to unseen domains.
In this work, we study the efficiency of unsupervised text matching using
Sentence-Bert, a transformer-based model, by applying it to the semantic
similarity of financial passages. Experimental results show that this model is
robust to documents from in- and out-of-domain data.
- Abstract(参考訳): 自然言語処理手法は、文書や通路分類、情報検索、質問応答などの自動監査にいくつかの応用がある。
しかし、そのようなモデルのトレーニングには、産業環境では不十分な大量の注釈付きデータが必要である。
同時に、ゼロショットや教師なし学習のようなテクニックは、一般的なドメインデータを使用して事前訓練されたモデルを、目に見えないドメインに適用することができる。
本研究では,トランスフォーマティブ・モデルであるtext-bertを用いた教師なしテキストマッチングの効率を,金融通路の意味的類似性に適用して検討する。
実験の結果,本モデルはドメイン内および外部データからの文書に対して堅牢であることがわかった。
関連論文リスト
- Self-Train Before You Transcribe [3.17829719401032]
本研究では,テスト時間適応手法として,テストセットの録音にうるさわしい教師の訓練を行うことの利点について検討する。
ドメイン内のデータセットとドメイン外のデータセットは、32.2%までの大きな相対的なゲインを示す実験に使用される。
論文 参考訳(メタデータ) (2024-06-17T09:21:00Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Domain-Specific NER via Retrieving Correlated Samples [37.98414661072985]
本稿では,NERモデルの相関サンプルによる拡張を提案する。
人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。
上記の2つの領域のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-08-27T12:25:24Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Multiple-Source Domain Adaptation via Coordinated Domain Encoders and
Paired Classifiers [1.52292571922932]
ドメインシフトの下でのテキスト分類の新しいモデルを提案する。
更新表現を利用して、ドメインエンコーダを動的に統合する。
また、ターゲットドメインのエラー率を推測するために確率モデルも採用している。
論文 参考訳(メタデータ) (2022-01-28T00:50:01Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。