論文の概要: A Multilingual Study of Multi-Sentence Compression using Word
Vertex-Labeled Graphs and Integer Linear Programming
- arxiv url: http://arxiv.org/abs/2004.04468v1
- Date: Thu, 9 Apr 2020 10:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:44:43.996753
- Title: A Multilingual Study of Multi-Sentence Compression using Word
Vertex-Labeled Graphs and Integer Linear Programming
- Title(参考訳): 単語頂点ラベルグラフと整数線形計画を用いた多節圧縮の多言語研究
- Authors: Elvys Linhares Pontes, St\'ephane Huet, Juan-Manuel Torres-Moreno,
Thiago G. da Silva, and Andr\'ea Carneiro Linhares
- Abstract要約: Multi-Sentence Compression (MSC) は、類似した文のクラスタからキー情報を持つ短い文を生成することを目的としている。
本稿では,異なるキーワードを選択するためにグラフを用いたMSCの線形計画法について述べる。
システムの品質は良好で,3言語でニュースデータセットを導いた評価の精度に優れる。
- 参考スコア(独自算出の注目度): 1.3922732150370447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Sentence Compression (MSC) aims to generate a short sentence with the
key information from a cluster of similar sentences. MSC enables summarization
and question-answering systems to generate outputs combining fully formed
sentences from one or several documents. This paper describes an Integer Linear
Programming method for MSC using a vertex-labeled graph to select different
keywords, with the goal of generating more informative sentences while
maintaining their grammaticality. Our system is of good quality and outperforms
the state of the art for evaluations led on news datasets in three languages:
French, Portuguese and Spanish. We led both automatic and manual evaluations to
determine the informativeness and the grammaticality of compressions for each
dataset. In additional tests, which take advantage of the fact that the length
of compressions can be modulated, we still improve ROUGE scores with shorter
output sentences.
- Abstract(参考訳): Multi-Sentence Compression (MSC) は、類似した文のクラスタからキー情報を持つ短い文を生成することを目的としている。
MSCは1つまたは複数の文書から完全に形成された文を組み合わせた出力を生成することができる。
本稿では, 頂点ラベル付きグラフを用いて, 文法性を維持しつつ, より意味のある文を生成することを目的とした, MSCの整数線形計画法について述べる。
私たちのシステムは品質が良く、フランス語、ポルトガル語、スペイン語の3つの言語で、ニュースデータセットに基づく評価で最先端の技術を上回っています。
各データセットに対する圧縮のインフォマティリティと文法性を決定するために,自動評価と手動評価の両方を指導した。
圧縮長を変調できるという利点を生かした追加試験では, ROUGEスコアを短い出力文で改善する。
関連論文リスト
- Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ClueGraphSum: Let Key Clues Guide the Cross-Lingual Abstractive
Summarization [5.873920727236548]
言語間の要約は、異なる言語の記事に対して1つの言語で要約を生成するタスクである。
CLSに関するこれまでの研究は主にパイプライン方式を採用し、翻訳された並列データを使ってエンドツーエンドモデルを訓練していた。
本稿では,言語間要約の品質向上を図るために,手掛かり付き言語間抽象要約手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T18:01:11Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - SgSum: Transforming Multi-document Summarization into Sub-graph
Selection [27.40759123902261]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。
サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。
我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) (2021-10-25T05:12:10Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。