論文の概要: P-SIF: Document Embeddings Using Partition Averaging
- arxiv url: http://arxiv.org/abs/2005.09069v1
- Date: Mon, 18 May 2020 20:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:55:48.352973
- Title: P-SIF: Document Embeddings Using Partition Averaging
- Title(参考訳): p-sif: partition averagingを用いたドキュメント埋め込み
- Authors: Vivek Gupta, Ankit Saw, Pegah Nokhiz, Praneeth Netrapalli, Piyush Rai,
Partha Talukdar
- Abstract要約: 長文を表す分割語平均化モデルであるP-SIFを提案する。
P-SIFは、文書のトピック構造を考慮に入れながら、単純な重み付き単語平均化の単純さを維持している。
P-SIFの正当性に関する理論的正当性を提供する。
- 参考スコア(独自算出の注目度): 44.919510754067154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simple weighted averaging of word vectors often yields effective
representations for sentences which outperform sophisticated seq2seq neural
models in many tasks. While it is desirable to use the same method to represent
documents as well, unfortunately, the effectiveness is lost when representing
long documents involving multiple sentences. One of the key reasons is that a
longer document is likely to contain words from many different topics; hence,
creating a single vector while ignoring all the topical structure is unlikely
to yield an effective document representation. This problem is less acute in
single sentences and other short text fragments where the presence of a single
topic is most likely. To alleviate this problem, we present P-SIF, a
partitioned word averaging model to represent long documents. P-SIF retains the
simplicity of simple weighted word averaging while taking a document's topical
structure into account. In particular, P-SIF learns topic-specific vectors from
a document and finally concatenates them all to represent the overall document.
We provide theoretical justifications on the correctness of P-SIF. Through a
comprehensive set of experiments, we demonstrate P-SIF's effectiveness compared
to simple weighted averaging and many other baselines.
- Abstract(参考訳): 単語ベクトルの単純な重み付け平均化は、多くのタスクで洗練されたseq2seqニューラルモデルよりも優れた文の効果的な表現をもたらす。
同じ手法で文書も表現することが望ましいが、残念ながら複数の文を含む長い文書を表現する場合の有効性は失われる。
主要な理由の1つは、長いドキュメントが多くの異なるトピックの単語を含む可能性が高いため、全てのトピック構造を無視しながら単一のベクトルを作成することは、効果的なドキュメント表現をもたらすことはありそうにない。
この問題は、単一の話題が存在する可能性が最も高い、単文や他の短い文章断片において、それほど深刻ではない。
この問題を軽減するために、長い文書を表す分割語平均化モデルであるP-SIFを提案する。
P-SIFは、文書のトピック構造を考慮して、単純な重み付き単語平均化の単純さを維持している。
特に、P-SIFは文書からトピック固有のベクトルを学習し、最終的にそれらを全て結合してドキュメント全体を表現する。
P-SIFの正当性を理論的に正当化する。
総合的な実験を通して,P-SIFの有効性を,単純な重み付け平均化や他の多くのベースラインと比較した。
関連論文リスト
- Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - SgSum: Transforming Multi-document Summarization into Sub-graph
Selection [27.40759123902261]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。
サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。
我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) (2021-10-25T05:12:10Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。