論文の概要: A Split-then-Join Approach to Abstractive Summarization for Very Long Documents in a Low Resource Setting
- arxiv url: http://arxiv.org/abs/2505.06862v1
- Date: Sun, 11 May 2025 06:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.078511
- Title: A Split-then-Join Approach to Abstractive Summarization for Very Long Documents in a Low Resource Setting
- Title(参考訳): 低リソース環境における極長文書の抽象要約のための分割結合手法
- Authors: Lhuqita Fazry,
- Abstract要約: $textttBIGBIRD-PEG$ model achieves $textitstate-of-the-art$ on abstractive text summarization for long document。
キャパシティは最大4,096ドルのトークンに制限され、非常に長いドキュメントの要約のパフォーマンスが低下した。
トレーニング済みの$textttBIGBIRD-PEG$モデルを使って、他のドメインデータセットでモデルを微調整します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: $\texttt{BIGBIRD-PEGASUS}$ model achieves $\textit{state-of-the-art}$ on abstractive text summarization for long documents. However it's capacity still limited to maximum of $4,096$ tokens, thus caused performance degradation on summarization for very long documents. Common method to deal with the issue is to truncate the documents. In this reasearch, we'll use different approach. We'll use the pretrained $\texttt{BIGBIRD-PEGASUS}$ model by fine tuned the model on other domain dataset. First, we filter out all documents which length less than $20,000$ tokens to focus on very long documents. To prevent domain shifting problem and overfitting on transfer learning due to small dataset, we augment the dataset by splitting document-summary training pair into parts, to fit the document into $4,096$ tokens. Source code available on $\href{https://github.com/lhfazry/SPIN-summ}{https://github.com/lhfazry/SPIN-summ}$.
- Abstract(参考訳): $\textt{BIGBIRD-PEGASUS}$ model achieves $\textit{state-of-the-art}$ on abstractive text summarization for long document。
しかし、その容量は最大で4,096ドルのトークンに制限され、非常に長いドキュメントの要約のパフォーマンスが低下した。
この問題に対処する一般的な方法は、文書を切り捨てることである。
この調査では、異なるアプローチを採用します。
トレーニング済みの$\texttt{BIGBIRD-PEGASUS}$モデルを使って、他のドメインデータセットのモデルを微調整します。
まず、非常に長いドキュメントにフォーカスするために、2万ドル未満のトークンを含むすべてのドキュメントをフィルタリングします。
ドメインシフトの問題や、小さなデータセットによる転送学習の過度な適合を防止するため、文書と土着のトレーニングペアを部品に分割してデータセットを増強し、文書を4,096ドルのトークンに適合させる。
ソースコードは$\href{https://github.com/lhfazry/SPIN-summ}{https://github.com/lhfazry/SPIN-summ}$で入手できる。
関連論文リスト
- ProofWala: Multilingual Proof Data Synthesis and Theorem-Proving [53.67926215943612]
$rm P Small ROOFW Small ALA$は、ニューラル定理プローサと2つの確立された対話的証明アシスタント(ITP)間の相互作用を可能にする
私たちは、$rm P Small ROOFWsmall ALA$生成のCoqとLeanのデータの組み合わせでトレーニングされたモデルが、標準のprov-at-k$メトリック上で、Lean-onlyとCoq-onlyのモデルを上回っていることを示します。
論文 参考訳(メタデータ) (2025-02-07T05:35:46Z) - Drilling Down into the Discourse Structure with LLMs for Long Document
Question Answering [5.022057415488129]
本稿では,文書に共通する談話構造を利用した一組の手法を提案する。
複雑なマルチホップ質問応答において,我々のアプローチをテキスト自己認識推論エージェントと組み合わせて,最高のゼロショット性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-11-22T18:22:56Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - IncDSI: Incrementally Updatable Document Retrieval [35.5697863674097]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout,
Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout
Analysis [23.924144353511984]
本稿では,M6Doc$という大規模かつ多様な文書レイアウト解析データセットを紹介する。
本稿ではTransDLANetと呼ばれるトランスフォーマーを用いた文書レイアウト解析手法を提案する。
我々は,様々なレイアウト解析手法を用いてM6Doc$の総合評価を行い,その効果を実証する。
論文 参考訳(メタデータ) (2023-05-15T15:29:06Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。