論文の概要: Improving the Efficiency of Long Document Classification using Sentence Ranking Approach
- arxiv url: http://arxiv.org/abs/2506.07248v1
- Date: Sun, 08 Jun 2025 18:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.732208
- Title: Improving the Efficiency of Long Document Classification using Sentence Ranking Approach
- Title(参考訳): 文ランク付け手法による長文分類の効率化
- Authors: Prathamesh Kokate, Mitali Sarnaik, Manavi Khopade, Raviraj Joshi,
- Abstract要約: 本稿では,TF-IDFに基づく文ランク付け手法を提案する。
提案手法は,固定数とパーセンテージに基づく文選択と,正規化TF-IDFスコアと文長を組み合わせた評価戦略の強化である。
入力サイズを50%以上削減し、推論遅延を43%削減しながら、フルコンテキストのベースラインと比較して、ほぼ同一の分類精度をわずか0.3パーセントの低下で達成します。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document classification poses challenges due to the computational limitations of transformer-based models, particularly BERT, which are constrained by fixed input lengths and quadratic attention complexity. Moreover, using the full document for classification is often redundant, as only a subset of sentences typically carries the necessary information. To address this, we propose a TF-IDF-based sentence ranking method that improves efficiency by selecting the most informative content. Our approach explores fixed-count and percentage-based sentence selection, along with an enhanced scoring strategy combining normalized TF-IDF scores and sentence length. Evaluated on the MahaNews LDC dataset of long Marathi news articles, the method consistently outperforms baselines such as first, last, and random sentence selection. With MahaBERT-v2, we achieve near-identical classification accuracy with just a 0.33 percent drop compared to the full-context baseline, while reducing input size by over 50 percent and inference latency by 43 percent. This demonstrates that significant context reduction is possible without sacrificing performance, making the method practical for real-world long document classification tasks.
- Abstract(参考訳): 長い文書分類は、トランスフォーマーモデル(特にBERT)の計算上の制限により、固定された入力長と二次的な注意複雑さによって制約される問題を引き起こす。
さらに、分類のための完全な文書の使用は、典型的には必要な情報を持っている文のサブセットだけであるため、しばしば冗長である。
そこで本研究では,TF-IDFに基づく文ランク付け手法を提案する。
提案手法は,固定数とパーセンテージに基づく文選択と,正規化TF-IDFスコアと文長を組み合わせた評価戦略の強化である。
長大マラーティニュース記事のマハニューズ LDC データセットに基づいて評価し、この手法は第一、最後、ランダムな文選択などのベースラインを一貫して上回る。
MahaBERT-v2では、入力サイズを50%以上削減し、推論遅延を43%削減しながら、全文ベースラインに比べてわずか0.3パーセントの精度で、ほぼ同一の分類精度を実現しています。
このことは、性能を犠牲にすることなく、重要なコンテキスト削減が可能であり、実世界の長期文書分類タスクに実用的であることを示している。
関連論文リスト
- Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - Low-Resource Fast Text Classification Based on Intra-Class and Inter-Class Distance Calculation [1.0291559330120414]
LFTCと呼ばれる低リソースかつ高速なテキスト分類モデルを提案する。
当社のアプローチは,各クラスに対して,クラス内データ内の正規性情報を完全にマイニングするコンプレッサーリストを構築することから始まります。
LFTCを9つの公開ベンチマークデータセットで評価した結果,性能と処理時間に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-13T07:22:13Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - ChuLo: Chunk-Level Key Information Representation for Long Document Processing [11.29459225491404]
ChuLoは長い文書理解のための新しいチャンク表現手法である。
提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文 参考訳(メタデータ) (2024-10-14T22:06:54Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。