Fugu-MT 論文翻訳(概要): Large-Scale Multi-Document Summarization with Information Extraction and Compression

論文の概要: Large-Scale Multi-Document Summarization with Information Extraction and Compression

arxiv url: http://arxiv.org/abs/2205.00548v1
Date: Sun, 1 May 2022 19:49:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-03 15:36:13.004162
Title: Large-Scale Multi-Document Summarization with Information Extraction and Compression
Title（参考訳）: 情報抽出と圧縮による大規模マルチドキュメント要約
Authors: Ning Wang, Han Liu, Diego Klabjan
Abstract要約: 複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
参考スコア（独自算出の注目度）: 31.601707033466766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop an abstractive summarization framework independent of labeled data for multiple heterogeneous documents. Unlike existing multi-document summarization methods, our framework processes documents telling different stories instead of documents on the same topic. We also enhance an existing sentence fusion method with a uni-directional language model to prioritize fused sentences with higher sentence probability with the goal of increasing readability. Lastly, we construct a total of twelve dataset variations based on CNN/Daily Mail and the NewsRoom datasets, where each document group contains a large and diverse collection of documents to evaluate the performance of our model in comparison with other baseline systems. Our experiments demonstrate that our framework outperforms current state-of-the-art methods in this more generic setting.
Abstract（参考訳）: 複数の異種文書のラベル付きデータに依存しない抽象的な要約フレームワークを開発する。既存のマルチドキュメント要約手法とは異なり、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。また,一方向言語モデルを用いて既存の文融合法を強化し,可読性の向上を目標とし,高い文確率で融合文を優先する。最後に、cnn/daily mailとnewsroomデータセットに基づく12のデータセットのバリエーションを構築し、各ドキュメントグループは、他のベースラインシステムと比較して、モデルのパフォーマンスを評価するために、大規模で多様なドキュメントコレクションを含んでいる。我々の実験は、このより汎用的な設定で、我々のフレームワークが現在の最先端のメソッドよりも優れています。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本稿では,マルチモーダル埋め込みを入力として活用し,教師なし文書クラスタリングへの新たなアプローチについて検討する。本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。提案手法の有効性を,いくつかの最先端事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
論文参考訳（メタデータ） (2025-06-13T14:07:44Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文参考訳（メタデータ） (2023-05-24T17:48:40Z)
Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文参考訳（メタデータ） (2023-03-05T14:25:05Z)
PDSum: Prototype-driven Continuous Summarization of Evolving Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。 PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文参考訳（メタデータ） (2023-02-10T23:43:46Z)
Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文参考訳（メタデータ） (2022-01-29T05:56:35Z)
Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文参考訳（メタデータ） (2021-10-15T03:55:42Z)
Multilayer Networks for Text Analysis with Multiple Data Types [0.21108097398435335]
本稿では,マルチレイヤネットワークとブロックモデルに基づく新しいフレームワークを提案する。複数の種類の情報を考慮すると、トピックやドキュメントクラスタに関するより微妙なビューが得られます。
論文参考訳（メタデータ） (2021-06-30T05:47:39Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。