論文の概要: Sparse Graph Representations for Procedural Instructional Documents
- arxiv url: http://arxiv.org/abs/2402.03957v1
- Date: Tue, 6 Feb 2024 12:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:52:57.942918
- Title: Sparse Graph Representations for Procedural Instructional Documents
- Title(参考訳): 手続き的文書に対するスパースグラフ表現
- Authors: Shruti Singh and Rishabh Gupta
- Abstract要約: 本稿では,文書ペアを有向かつ疎結合なJCIGとして表現することで,文書の類似性をモデル化する2つの手法を提案する。
スパース指向グラフモデルアーキテクチャは、シーケンシャルな情報を含まないベースラインに匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 7.205864119886871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computation of document similarity is a critical task in various NLP domains
that has applications in deduplication, matching, and recommendation.
Traditional approaches for document similarity computation include learning
representations of documents and employing a similarity or a distance function
over the embeddings. However, pairwise similarities and differences are not
efficiently captured by individual representations. Graph representations such
as Joint Concept Interaction Graph (JCIG) represent a pair of documents as a
joint undirected weighted graph. JCIGs facilitate an interpretable
representation of document pairs as a graph. However, JCIGs are undirected, and
don't consider the sequential flow of sentences in documents. We propose two
approaches to model document similarity by representing document pairs as a
directed and sparse JCIG that incorporates sequential information. We propose
two algorithms inspired by Supergenome Sorting and Hamiltonian Path that
replace the undirected edges with directed edges. Our approach also sparsifies
the graph to $O(n)$ edges from JCIG's worst case of $O(n^2)$. We show that our
sparse directed graph model architecture consisting of a Siamese encoder and
GCN achieves comparable results to the baseline on datasets not containing
sequential information and beats the baseline by ten points on an instructional
documents dataset containing sequential information.
- Abstract(参考訳): 文書類似性の計算は、重複、マッチング、レコメンデーションに応用される様々なNLPドメインにおいて重要なタスクである。
文書類似性計算の従来の手法には、文書の表現の学習や、埋め込み上の類似性や距離関数の利用が含まれる。
しかし、ペアの類似性と相違は個々の表現によって効率的に捉えられるわけではない。
JCIG(Joint Concept Interaction Graph)のようなグラフ表現は、文書のペアを非方向重み付きグラフとして表現する。
JCIGは文書ペアをグラフとして解釈可能な表現を促進する。
しかし、JCIGは非ダイレクトであり、文書内の文のシーケンシャルな流れを考慮しない。
本稿では,文書の類似性をモデル化するための2つの手法を提案する。
本研究では,非向エッジを有向エッジに置き換えるスーパージェノムソートとハミルトニアンパスに触発された2つのアルゴリズムを提案する。
我々のアプローチは、グラフを JCIGの最悪のケースである$O(n^2)$から$O(n)$ edgeに分割する。
本稿では、シームズエンコーダとGCNからなるスパース指向グラフモデルアーキテクチャを用いて、シーケンシャル情報を含まないデータセットのベースラインに匹敵する結果が得られ、シーケンシャル情報を含む命令文書データセットのベースラインを10ポイント上回ることを示す。
関連論文リスト
- Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。
このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。
関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文 参考訳(メタデータ) (2025-02-04T17:16:14Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Modeling Structural Similarities between Documents for Coherence
Assessment with Graph Convolutional Networks [17.853960157501742]
コヒーレンス(英語版)はテキスト品質の重要な側面であり、コヒーレンスモデリングに様々なアプローチが適用されている。
文書間の構造的類似性を捉えることができるGCNに基づくコヒーレンスモデルについて検討する。
提案手法を2つのタスクで評価し,談話コヒーレンスと自動エッセイスコアを評価する。
論文 参考訳(メタデータ) (2023-06-10T16:08:47Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph
Similarity Learning [65.1042892570989]
自己教師付きグラフ類似性学習のためのコントラストグラフマッチングネットワーク(CGMN)を提案する。
我々は,効率的なノード表現学習のために,クロスビューインタラクションとクロスグラフインタラクションという2つの戦略を用いる。
我々はノード表現をグラフ類似性計算のためのプール演算によりグラフレベル表現に変換する。
論文 参考訳(メタデータ) (2022-05-30T13:20:26Z) - Collaborative likelihood-ratio estimation over graphs [55.98760097296213]
グラフに基づく相対的制約のない最小二乗重要度フィッティング(GRULSIF)
我々はこの考え方を、グラフベースの相対的非制約最小二乗重要度フィッティング(GRULSIF)と呼ばれる具体的な非パラメトリック手法で開発する。
我々は、ノード当たりの観測回数、グラフのサイズ、およびグラフ構造がタスク間の類似性をどの程度正確にエンコードしているかといった変数が果たす役割を強調する、協調的なアプローチの収束率を導出する。
論文 参考訳(メタデータ) (2022-05-28T15:37:03Z) - Double Graph Based Reasoning for Document-level Relation Extraction [29.19714611415326]
文書レベルの関係抽出は、文書内のエンティティ間の関係を抽出することを目的としている。
二重グラフを特徴とするグラフ集約と推論ネットワーク(GAIN)を提案する。
公開データセットの実験であるDocREDは、GAINが以前の最先端技術よりも大幅なパフォーマンス改善(2.85 on F1)を達成したことを示している。
論文 参考訳(メタデータ) (2020-09-29T03:41:01Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。