論文の概要: Key Information Retrieval to Classify the Unstructured Data Content of
Preferential Trade Agreements
- arxiv url: http://arxiv.org/abs/2401.12520v1
- Date: Tue, 23 Jan 2024 06:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:28:49.452664
- Title: Key Information Retrieval to Classify the Unstructured Data Content of
Preferential Trade Agreements
- Title(参考訳): 優先貿易協定の非構造化データ内容の分類に関する重要情報検索
- Authors: Jiahui Zhao, Ziyi Meng, Stepan Gordeev, Zijie Pan, Dongjin Song,
Sandro Steinbach, Caiwen Ding
- Abstract要約: 長文の分類と予測に新しいアプローチを導入する。
我々は、長いテキストを凝縮するために埋め込み技術を採用し、その冗長性を減少させることを目的としている。
提案手法は, 優先貿易協定の長文分類において, 大幅な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 17.14791553124506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid proliferation of textual data, predicting long texts has
emerged as a significant challenge in the domain of natural language
processing. Traditional text prediction methods encounter substantial
difficulties when grappling with long texts, primarily due to the presence of
redundant and irrelevant information, which impedes the model's capacity to
capture pivotal insights from the text. To address this issue, we introduce a
novel approach to long-text classification and prediction. Initially, we employ
embedding techniques to condense the long texts, aiming to diminish the
redundancy therein. Subsequently,the Bidirectional Encoder Representations from
Transformers (BERT) embedding method is utilized for text classification
training. Experimental outcomes indicate that our method realizes considerable
performance enhancements in classifying long texts of Preferential Trade
Agreements. Furthermore, the condensation of text through embedding methods not
only augments prediction accuracy but also substantially reduces computational
complexity. Overall, this paper presents a strategy for long-text prediction,
offering a valuable reference for researchers and engineers in the natural
language processing sphere.
- Abstract(参考訳): テキストデータの急速な普及に伴い、自然言語処理の分野において、長文の予測が重要な課題となっている。
従来のテキスト予測手法は、テキストから重要な洞察をとらえるモデルの能力を妨げる冗長で無関係な情報が存在するため、長いテキストを扱い合う際にかなりの困難に直面する。
この問題に対処するために,長文分類と予測の新しいアプローチを提案する。
まず, 埋め込み技術を用いて長文を凝縮させ, 冗長性を減らそうとする。
その後、変換器(BERT)埋め込み方式による双方向エンコーダ表現をテキスト分類訓練に活用する。
実験結果から, 本手法は優先貿易協定の長文分類において, 大幅な性能向上を実現することが示唆された。
さらに, テキストの埋め込みによる凝縮は, 予測精度を増大させるだけでなく, 計算複雑性を大幅に低減させる。
本稿では,自然言語処理分野の研究者や技術者に有用な情報を提供するとともに,長文予測のための戦略を提案する。
関連論文リスト
- How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - A Survey of Text Representation Methods and Their Genealogy [0.0]
近年、高度にスケーラブルな人工神経ネットワークベースのテキスト表現法が出現し、自然言語処理の分野は前例のない成長と高度化が見られた。
我々は、系譜にそれらを配置し、テキスト表現方法の分類を概念化し、最先端の状態を検証し、説明することによって、現在のアプローチに関する調査を行う。
論文 参考訳(メタデータ) (2022-11-26T15:22:01Z) - Generating Textual Adversaries with Minimal Perturbation [11.758947247743615]
我々は,原文と高い類似性を有する敵文を見つけるための新たな攻撃戦略を開発する。
提案手法は,4つのベンチマークデータセットにおいて高い成功率と低い摂動率を実現する。
論文 参考訳(メタデータ) (2022-11-12T04:46:07Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - Text Guide: Improving the quality of long text classification by a text
selection method based on feature importance [0.0]
そこで本研究では,原文長を予め定義された限界まで短縮するテキスト変換方式であるtext guideを提案する。
長文分類に特化して設計された最近の言語モデルの性能向上に,テキストガイドが有効であることを示す。
論文 参考訳(メタデータ) (2021-04-15T04:10:08Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Review Regularized Neural Collaborative Filtering [11.960536488652354]
本稿では、R3と略されるフレキシブルなニューラルレコメンデーションフレームワークであるReview Regularized Recommendationを提案する。
予測出力に焦点を当てたニューラルコラボレーティブフィルタリング部と、正規化器として機能するテキスト処理部とから構成される。
予備的な結果は、単純なテキスト処理手法を用いることで、最先端のテキスト認識手法よりも優れた予測性能が得られることを示している。
論文 参考訳(メタデータ) (2020-08-20T18:54:27Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。