論文の概要: Robust Document Representations using Latent Topics and Metadata
- arxiv url: http://arxiv.org/abs/2010.12681v1
- Date: Fri, 23 Oct 2020 21:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:24:36.073451
- Title: Robust Document Representations using Latent Topics and Metadata
- Title(参考訳): 潜在トピックとメタデータを用いたロバスト文書表現
- Authors: Natraj Raman, Armineh Nourbakhsh, Sameena Shah, Manuela Veloso
- Abstract要約: 本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
- 参考スコア(独自算出の注目度): 17.306088038339336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task specific fine-tuning of a pre-trained neural language model using a
custom softmax output layer is the de facto approach of late when dealing with
document classification problems. This technique is not adequate when labeled
examples are not available at training time and when the metadata artifacts in
a document must be exploited. We address these challenges by generating
document representations that capture both text and metadata artifacts in a
task agnostic manner. Instead of traditional auto-regressive or auto-encoding
based training, our novel self-supervised approach learns a soft-partition of
the input space when generating text embeddings. Specifically, we employ a
pre-learned topic model distribution as surrogate labels and construct a loss
function based on KL divergence. Our solution also incorporates metadata
explicitly rather than just augmenting them with text. The generated document
embeddings exhibit compositional characteristics and are directly used by
downstream classification tasks to create decision boundaries from a small
number of labeled examples, thereby eschewing complicated recognition methods.
We demonstrate through extensive evaluation that our proposed cross-model
fusion solution outperforms several competitive baselines on multiple datasets.
- Abstract(参考訳): カスタムのsoftmax出力層を用いた事前学習されたニューラルネットワークモデルのタスク固有の微調整は、文書分類問題を扱う場合の遅延のデファクトアプローチである。
このテクニックは、ラベル付きサンプルがトレーニング時に利用できない場合や、ドキュメントのメタデータアーティファクトを悪用する必要がある場合では不十分である。
タスクに依存しない方法でテキストとメタデータのアーティファクトをキャプチャするドキュメント表現を生成することで、これらの課題に対処する。
従来の自己回帰学習や自動符号化学習の代わりに,本手法はテキスト埋め込み生成時に入力空間のソフトパーティションを学習する。
具体的には,予め学習した話題モデルの分布をラベルとして,klの発散に基づく損失関数を構築する。
私たちのソリューションでは、単にテキストで拡張するのではなく、メタデータを明示的に組み込んでいます。
生成された文書埋め込みは、構成特性を示し、下流の分類タスクによって直接使用され、少数のラベル付き例から決定境界を作成し、複雑な認識方法を作成する。
提案するクロスモデル融合ソリューションが,複数のデータセットの競合ベースラインを上回っていることを示す。
関連論文リスト
- Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - How does a Pre-Trained Transformer Integrate Contextual Keywords?
Application to Humanitarian Computing [0.0]
本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。
これは、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合しているかを示している。
論文 参考訳(メタデータ) (2021-11-07T11:24:08Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。