論文の概要: DataWords: Getting Contrarian with Text, Structured Data and
Explanations
- arxiv url: http://arxiv.org/abs/2111.05384v1
- Date: Tue, 9 Nov 2021 19:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 03:06:22.642476
- Title: DataWords: Getting Contrarian with Text, Structured Data and
Explanations
- Title(参考訳): DataWords: テキスト、構造化データ、説明との対比
- Authors: Stephen I. Gallant and Mirza Nasir Hossain
- Abstract要約: 我々は、類似のデータ項目が同じ文にマッピングされるように、テキスト文、DataWordsで構造化されたデータを表現します。
これにより、テキストモデリングアルゴリズムのみを使用して、テキストと構造化データの混合をモデル化することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal is to build classification models using a combination of free-text
and structured data. To do this, we represent structured data by text
sentences, DataWords, so that similar data items are mapped into the same
sentence. This permits modeling a mixture of text and structured data by using
only text-modeling algorithms. Several examples illustrate that it is possible
to improve text classification performance by first running extraction tools
(named entity recognition), then converting the output to DataWords, and adding
the DataWords to the original text -- before model building and classification.
This approach also allows us to produce explanations for inferences in terms of
both free text and structured data.
- Abstract(参考訳): 当社の目標は,フリーテキストと構造化データを組み合わせた分類モデルの構築です。
これを実現するために、構造化されたデータをテキスト、DataWordsで表現し、類似のデータ項目を同じ文にマッピングする。
これにより、テキストモデリングアルゴリズムのみを使用して、テキストと構造化データの混合をモデル化することができる。
いくつか例を挙げると、まず抽出ツール(エンティティ認識)を実行し、次に出力をデータワードに変換し、元のテキストにデータワードを追加することで、テキストの分類性能を改善することができる。
このアプローチにより、自由テキストと構造化データの両方の観点から推論の説明も作成できます。
関連論文リスト
- Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from
Text [4.709764624933227]
本稿では,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキストアノテーションスキーム、データ処理のトレーニング、機械学習の実装が含まれている。
データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Modelling the semantics of text in complex document layouts using graph
transformer networks [0.0]
本稿では,文書の読取パターンを近似したモデルを提案し,テキストスパン毎にユニークな意味表現を出力する。
アーキテクチャは構造化されたテキストのグラフ表現に基づいており、文書間で意味的に類似した情報を検索できるだけでなく、生成した埋め込み空間が有用な意味情報をキャプチャすることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:49:06Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。