Fugu-MT 論文翻訳(概要): Automatic Summarization of Long Documents

論文の概要: Automatic Summarization of Long Documents

arxiv url: http://arxiv.org/abs/2410.05903v1
Date: Tue, 8 Oct 2024 11:00:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:10:29.788843
Title: Automatic Summarization of Long Documents
Title（参考訳）: 文書の自動要約
Authors: Naman Chhibbar, Jugal Kalita,
Abstract要約: 本研究では,入力サイズ制限を効率的に克服する3つの新しいアルゴリズムを提案する。我々は70,000語以上のテキストでアルゴリズムをテストし、実験の結果、競争力のあるROUGEスコアによるBERTScoreの顕著な増加が示されている。
参考スコア（独自算出の注目度）: 7.136205674624813
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A vast amount of textual data is added to the internet daily, making utilization and interpretation of such data difficult and cumbersome. As a result, automatic text summarization is crucial for extracting relevant information, saving precious reading time. Although many transformer-based models excel in summarization, they are constrained by their input size, preventing them from processing texts longer than their context size. This study introduces three novel algorithms that allow any LLM to efficiently overcome its input size limitation, effectively utilizing its full potential without any architectural modifications. We test our algorithms on texts with more than 70,000 words, and our experiments show a significant increase in BERTScore with competitive ROUGE scores.
Abstract（参考訳）: 大量のテキストデータが毎日インターネットに追加され、そのようなデータの活用と解釈が困難で面倒である。その結果、関連情報を抽出し、貴重な読解時間を節約するためには、自動テキスト要約が不可欠である。多くのトランスフォーマーベースのモデルでは要約が優れているが、入力サイズに制約されているため、コンテキストサイズよりも長いテキスト処理ができない。本研究では, LLMの入力サイズ制限を効率的に克服し, アーキテクチャ変更を伴わずにその潜在能力を効果的に活用する3つの新しいアルゴリズムを提案する。我々は70,000語以上のテキストでアルゴリズムをテストし、実験の結果、競争力のあるROUGEスコアによるBERTScoreの顕著な増加が示されている。

関連論文リスト

Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文参考訳（メタデータ） (2025-09-25T11:36:09Z)
An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文参考訳（メタデータ） (2025-03-02T06:11:29Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。 SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文参考訳（メタデータ） (2024-10-09T03:40:22Z)
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。 EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文参考訳（メタデータ） (2024-08-28T13:52:19Z)
SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison [2.7147912878168303]
我々は,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)媒体(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。その結果,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難であることが示唆された。言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。
論文参考訳（メタデータ） (2024-06-28T22:19:01Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。 LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文参考訳（メタデータ） (2024-02-21T07:27:18Z)
Extending Context Window of Large Language Models via Semantic Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。本稿では,テキストを6～8倍長大に一般化するセマンティック圧縮手法を提案する。
論文参考訳（メタデータ） (2023-12-15T07:04:33Z)
Graph-based Semantical Extractive Text Analysis [0.0]
本研究では,テキストの部分間の意味的類似性を組み込むことで,TextRankアルゴリズムの結果を改善する。キーワード抽出とテキスト要約とは別に,本フレームワークに基づくトピッククラスタリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-12-19T18:30:26Z)
Document-Level Abstractive Summarization [0.0]
非常に長いテキストの自動要約を改善するために,トランスフォーマー技術がいかに効果的かを検討する。より小さなチャンクを処理して文書全体の要約を生成するコストを削減できる新しい検索強化手法を提案する。
論文参考訳（メタデータ） (2022-12-06T14:39:09Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。