論文の概要: Efficient Zero-Shot Long Document Classification by Reducing Context Through Sentence Ranking
- arxiv url: http://arxiv.org/abs/2508.17490v1
- Date: Sun, 24 Aug 2025 18:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.55158
- Title: Efficient Zero-Shot Long Document Classification by Reducing Context Through Sentence Ranking
- Title(参考訳): 文ランク付けによる文脈の削減によるゼロショット長文書分類の効率化
- Authors: Prathamesh Kokate, Mitali Sarnaik, Manavi Khopade, Mukta Takalikar, Raviraj Joshi,
- Abstract要約: BERTのようなトランスフォーマーベースのモデルは短いテキスト分類では優れているが、長い文書分類(LDC)では困難である
モデルアーキテクチャを変更することなく,文のランク付けを利用して入力コンテキストを削減する,効率的なゼロショット手法を提案する。
本手法により,見出しなどの短文で訓練したモデルを,最も情報に富んだ文章を選択することで,長文文書に適応することが可能となる。
- 参考スコア(独自算出の注目度): 2.584263027095689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models like BERT excel at short text classification but struggle with long document classification (LDC) due to input length limitations and computational inefficiencies. In this work, we propose an efficient, zero-shot approach to LDC that leverages sentence ranking to reduce input context without altering the model architecture. Our method enables the adaptation of models trained on short texts, such as headlines, to long-form documents by selecting the most informative sentences using a TF-IDF-based ranking strategy. Using the MahaNews dataset of long Marathi news articles, we evaluate three context reduction strategies that prioritize essential content while preserving classification accuracy. Our results show that retaining only the top 50\% ranked sentences maintains performance comparable to full-document inference while reducing inference time by up to 35\%. This demonstrates that sentence ranking is a simple yet effective technique for scalable and efficient zero-shot LDC.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのモデルは、短いテキスト分類では優れているが、入力長制限と計算不効率のために長い文書分類(LDC)に苦慮している。
本研究では,モデルアーキテクチャを変更することなく,文のランク付けを利用して入力コンテキストを削減する,効率的なゼロショットアプローチを提案する。
本手法は,TF-IDFに基づくランキング戦略を用いて,最も情報に富んだ文章を選択することで,見出しなどの短文で訓練されたモデルを長文文書に適応させることができる。
長大マラーティーニュース記事のMahaNewsデータセットを用いて,分類精度を保ちながら本質的な内容に優先順位をつける3つの文脈削減戦略を評価する。
以上の結果から,上位50 %の文のみの保持は,最大35 %まで推論時間を短縮しつつ,全文書推測に匹敵する性能を維持していることが明らかとなった。
このことは、文のランク付けがスケーラブルで効率的なゼロショットLCDのための単純かつ効果的な手法であることを証明している。
関連論文リスト
- Improving the Efficiency of Long Document Classification using Sentence Ranking Approach [0.4499833362998489]
本稿では,TF-IDFに基づく文ランク付け手法を提案する。
提案手法は,固定数とパーセンテージに基づく文選択と,正規化TF-IDFスコアと文長を組み合わせた評価戦略の強化である。
入力サイズを50%以上削減し、推論遅延を43%削減しながら、フルコンテキストのベースラインと比較して、ほぼ同一の分類精度をわずか0.3パーセントの低下で達成します。
論文 参考訳(メタデータ) (2025-06-08T18:09:43Z) - Low-Resource Fast Text Classification Based on Intra-Class and Inter-Class Distance Calculation [1.0291559330120414]
LFTCと呼ばれる低リソースかつ高速なテキスト分類モデルを提案する。
当社のアプローチは,各クラスに対して,クラス内データ内の正規性情報を完全にマイニングするコンプレッサーリストを構築することから始まります。
LFTCを9つの公開ベンチマークデータセットで評価した結果,性能と処理時間に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-13T07:22:13Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Zero-Shot Ranking Socio-Political Texts with Transformer Language Models
to Reduce Close Reading Time [0.0]
我々は、Transformer Language Modelsを使用して、詳細確率を取得し、異なるタイプのクエリを調べる。
ランキング文書の一定割合を取ることで、クローズドリーディング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2022-10-17T15:28:54Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。