論文の概要: PCSI -- The Platform for Content-Structure Inference
- arxiv url: http://arxiv.org/abs/2501.13272v1
- Date: Wed, 22 Jan 2025 23:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:33.167821
- Title: PCSI -- The Platform for Content-Structure Inference
- Title(参考訳): PCSI -- コンテンツ構造推論プラットフォーム
- Authors: Caleb Malchik, Joan Feigenbaum,
- Abstract要約: PCSIは、URLのクラスから構造化コンテンツを導出するためのエンコードメソッドを記録する。
メソッドは、HTML DOMをトラバースする機能を備えたAwkの亜種であるHexで記述されたスクリプトである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Platform for Content-Structure Inference (PCSI, pronounced "pixie") facilitates the sharing of information about the process of converting Web resources into structured content objects that conform to a predefined format. PCSI records encode methods for deriving structured content from classes of URLs, and report the results of applying particular methods to particular URLs. The methods are scripts written in Hex, a variant of Awk with facilities for traversing the HTML DOM.
- Abstract(参考訳): コンテンツ構造推論プラットフォーム(PCSI: Platform for Content-Structure Inference)は、Webリソースを事前定義されたフォーマットに準拠した構造化コンテンツオブジェクトに変換するプロセスに関する情報の共有を容易にする。
PCSIは、URLのクラスから構造化コンテンツを抽出するためのエンコードメソッドを記録し、特定のURLに特定のメソッドを適用した結果を報告する。
メソッドは、HTML DOMをトラバースする機能を備えたAwkの亜種であるHexで記述されたスクリプトである。
関連論文リスト
- HTML-LSTM: Information Extraction from HTML Tables in Web Pages using Tree-Structured LSTM [1.104960878651584]
我々は,複数のHTMLテーブルを単一のテーブルに統合し,様々なWebページに含まれる情報の検索を目指す。
HTMLデータの言語情報と構造情報の両方を抽出するために,木構造データのためのニューラルネットワークである木構造LSTMを拡張して設計する。
論文 参考訳(メタデータ) (2024-09-28T19:58:29Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Federated Dataset Dictionary Learning for Multi-Source Domain Adaptation [4.83134644882906]
我々の設定では、クライアントの分布は特定のドメインを表し、FedDaDiLは経験的分布の連合辞書をまとめて訓練する。
選択されたプロトコルは、クライアントのデータをプライベートに保ち、中央集権的なプロトコルに比べて全体的なプライバシを向上させる。
提案手法はCaltech-Office, (ii) TEP, (iii) CWRUベンチマークを用いて, 対象領域のラベル付きデータの生成に成功したことを実証的に実証した。
論文 参考訳(メタデータ) (2023-09-14T12:34:22Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - DOM-LM: Learning Generalizable Representations for HTML Documents [33.742833774918786]
我々は、既存のアプローチの限界に対処するDOM-LMと呼ばれる新しい表現学習手法をWebページに導入する。
我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおけるDOM-LMの評価を行った。
論文 参考訳(メタデータ) (2022-01-25T20:10:32Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - DeepCPCFG: Deep Learning and Context Free Grammars for End-to-End
Information Extraction [0.0]
深層学習と条件確率的文脈自由文法(CPCFG)を組み合わせて,構造化情報抽出のためのエンドツーエンドシステムを構築する。
スキャンされた請求書から最新の結果を得るためにこのアプローチを適用します。
論文 参考訳(メタデータ) (2021-03-10T07:35:21Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。