論文の概要: Unsupervised Matching of Data and Text
- arxiv url: http://arxiv.org/abs/2112.08776v1
- Date: Thu, 16 Dec 2021 10:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:32:57.791704
- Title: Unsupervised Matching of Data and Text
- Title(参考訳): データとテキストの教師なしマッチング
- Authors: Naser Ahmadi, Hansjorg Sand, Paolo Papotti
- Abstract要約: テキストコンテンツと構造化データとを教師なし設定でマッチングするフレームワークを導入する。
提案手法は,コーパスの内容に対して微細なグラフを構築し,低次元空間で一致する対象を表現するために単語埋め込みを導出する。
実使用事例と公開データセットの実験により、我々のフレームワークは単語埋め込みや微調整言語モデルよりも優れた埋め込みを生成することが示された。
- 参考スコア(独自算出の注目度): 6.2520079463149205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Entity resolution is a widely studied problem with several proposals to match
records across relations. Matching textual content is a widespread task in many
applications, such as question answering and search. While recent methods
achieve promising results for these two tasks, there is no clear solution for
the more general problem of matching textual content and structured data. We
introduce a framework that supports this new task in an unsupervised setting
for any pair of corpora, being relational tables or text documents. Our method
builds a fine-grained graph over the content of the corpora and derives word
embeddings to represent the objects to match in a low dimensional space. The
learned representation enables effective and efficient matching at different
granularity, from relational tuples to text sentences and paragraphs. Our
flexible framework can exploit pre-trained resources, but it does not depends
on their existence and achieves better quality performance in matching content
when the vocabulary is domain specific. We also introduce optimizations in the
graph creation process with an "expand and compress" approach that first
identifies new valid relationships across elements, to improve matching, and
then prunes nodes and edges, to reduce the graph size. Experiments on real use
cases and public datasets show that our framework produces embeddings that
outperform word embeddings and fine-tuned language models both in results'
quality and in execution times.
- Abstract(参考訳): エンティティ解決は、関係にまたがるレコードにマッチするいくつかの提案で広く研究されている問題である。
テキストコンテンツのマッチングは、質問応答や検索など、多くのアプリケーションで広く使われているタスクである。
最近の手法ではこれら2つの課題に有望な結果が得られるが、テキストの内容と構造化データとのマッチングというより一般的な問題に対する明確な解決策はない。
我々は、この新たなタスクをサポートするフレームワークを、リレーショナルテーブルやテキストドキュメントであるコーパスの任意のペアに対して教師なし設定で導入する。
提案手法は,コーパスの内容に対して微細なグラフを構築し,低次元空間で一致する対象を表現するために単語埋め込みを導出する。
学習された表現は、関係的なタプルから文や段落まで、異なる粒度での効率的かつ効率的なマッチングを可能にする。
当社のフレキシブルなフレームワークはトレーニング済みのリソースを活用できますが、その存在には依存せず、語彙がドメイン固有である場合のコンテンツのマッチングにおける品質向上を実現しています。
また、グラフ作成プロセスにおいて、まず要素間の新しい有効な関係を特定し、マッチングを改善し、次にノードとエッジをプルし、グラフのサイズを小さくする「拡張および圧縮」アプローチによる最適化も導入する。
実使用事例と公開データセットの実験から、我々のフレームワークは、結果の品質と実行時間の両方において、単語埋め込みと微調整言語モデルより優れた埋め込みを生成する。
関連論文リスト
- Unleashing the Power of LLMs as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
グラフ構造化情報は、言語モデルを強化するためのリッチなコンテキスト情報を提供する。
グラフとテキストの埋め込みを統合する既存の方法は、これらのモダリティの不均一性を完全に活用する能力に制限されている。
我々は,大規模言語モデル(LLM)を利用してテキストとグラフデータを共同符号化するフレームワークであるJanusを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Graph Structured Network for Image-Text Matching [127.68148793548116]
微粒化対応学習のためのグラフ構造化マッチングネットワークを提案する。
GSMNは、明示的にオブジェクト、関係、属性を構造化されたフレーズとしてモデル化する。
実験により、GSMNはベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-01T08:20:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。