論文の概要: Text Guide: Improving the quality of long text classification by a text
selection method based on feature importance
- arxiv url: http://arxiv.org/abs/2104.07225v1
- Date: Thu, 15 Apr 2021 04:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 04:30:43.561474
- Title: Text Guide: Improving the quality of long text classification by a text
selection method based on feature importance
- Title(参考訳): テキストガイド:特徴量に基づくテキスト選択法による長文分類の品質向上
- Authors: Krzysztof Fiok (1), Waldemar Karwowski (1), Edgar Gutierrez (1)(2),
Mohammad Reza Davahli (1), Maciej Wilamowski (3), Tareq Ahram (1), Awad
Al-Juaid (4), and Jozef Zurada (5) ((1) Department of Industrial Engineering
and Management Systems, University of Central Florida, USA, (2) Center for
Latin-American Logistics Innovation, LOGyCA, Bogota, Colombia (3) Faculty of
Economic Sciences, University of Warsaw, Warsaw, Poland (4) Department of
Industrial Engineering, College of Engineering, Taif University, Saudi Arabia
(5) Business School, University of Louisville, USA)
- Abstract要約: そこで本研究では,原文長を予め定義された限界まで短縮するテキスト変換方式であるtext guideを提案する。
長文分類に特化して設計された最近の言語モデルの性能向上に,テキストガイドが有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of text classification methods has improved greatly over the
last decade for text instances of less than 512 tokens. This limit has been
adopted by most state-of-the-research transformer models due to the high
computational cost of analyzing longer text instances. To mitigate this problem
and to improve classification for longer texts, researchers have sought to
resolve the underlying causes of the computational cost and have proposed
optimizations for the attention mechanism, which is the key element of every
transformer model. In our study, we are not pursuing the ultimate goal of long
text classification, i.e., the ability to analyze entire text instances at one
time while preserving high performance at a reasonable computational cost.
Instead, we propose a text truncation method called Text Guide, in which the
original text length is reduced to a predefined limit in a manner that improves
performance over naive and semi-naive approaches while preserving low
computational costs. Text Guide benefits from the concept of feature
importance, a notion from the explainable artificial intelligence domain. We
demonstrate that Text Guide can be used to improve the performance of recent
language models specifically designed for long text classification, such as
Longformer. Moreover, we discovered that parameter optimization is the key to
Text Guide performance and must be conducted before the method is deployed.
Future experiments may reveal additional benefits provided by this new method.
- Abstract(参考訳): テキスト分類法の性能は過去10年間で512トークン未満のテキストインスタンスで大幅に向上した。
この限界は、長いテキストインスタンスを分析する計算コストが高いため、ほとんどの最先端のトランスフォーマーモデルで採用されている。
この問題を緩和し、より長いテキストの分類を改善するため、研究者は計算コストの根本的な原因を解明し、全てのトランスフォーマーモデルの主要な要素である注意機構の最適化を提案した。
本研究は,テキストの長い分類,すなわちテキストのインスタンス全体を一度に解析し,高い性能を合理的な計算コストで維持する能力の究極的な目標を追求するものではない。
その代わり,テキストガイドと呼ばれるテキストトランケーション手法を提案し,テキスト長を予め定義された制限に減らし,計算コストを低く抑えつつ,ナイーブおよびセミナイーブなアプローチよりも性能を向上させる。
テキストガイドは、特徴の重要性の概念、つまり説明可能な人工知能ドメインから恩恵を受ける。
テキストガイドは,Longformerなどの長文分類に特化して設計された最近の言語モデルの性能向上に有効であることを示す。
さらに,パラメータ最適化がテキストガイド性能の鍵であり,メソッドがデプロイされる前に実行する必要があることを発見した。
今後の実験では、この新しい方法によってさらなる利点がもたらされるかもしれない。
関連論文リスト
- Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - Key Information Retrieval to Classify the Unstructured Data Content of
Preferential Trade Agreements [17.14791553124506]
長文の分類と予測に新しいアプローチを導入する。
我々は、長いテキストを凝縮するために埋め込み技術を採用し、その冗長性を減少させることを目的としている。
提案手法は, 優先貿易協定の長文分類において, 大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-23T06:30:05Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Optimizing Readability Using Genetic Algorithms [0.0]
本研究は,英語の任意のテキストの読みやすさを自動的に最適化する手法であるORUGAを提案する。
この手法の背景にある中核的な考え方は、ある要因がテキストの可読性に影響を与えることである。
さらに,本研究は,多目的最適化手法を用いて,原文の内容と形式の両方を保存することを目的とする。
論文 参考訳(メタデータ) (2023-01-01T09:08:45Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Discourse-Aware Prompt Design for Text Generation [13.835916386769474]
そこで本研究では, 簡易かつ効率的な手法により, プロンプトベースの条件付きテキスト生成を改善することができることを示す。
まず、人文テキストの高レベルな談話構造を、プレフィックスパラメータのテクスチャ階層的ブロッキングでモデル化できることを示す。
第2に,ネットワークの各レイヤにおけるプレフィックスパラメータのテキスト分割間隔を導入し,ソフトマックス関数のスパース変換を学習することで,スパースプレフィックスチューニングを提案する。
論文 参考訳(メタデータ) (2021-12-10T18:15:44Z) - Text Counterfactuals via Latent Optimization and Shapley-Guided Search [15.919650185010491]
本研究は,分類モデルにおける対実テキスト生成の問題について考察する。
我々は、モデルの予測を変えるために、テキストを最小限に変更することを目指している。
ホワイトボックスアプローチは、視覚における同様の問題にうまく適用されている。
論文 参考訳(メタデータ) (2021-10-22T05:04:40Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。