論文の概要: Magic Markup: Maintaining Document-External Markup with an LLM
- arxiv url: http://arxiv.org/abs/2403.03481v1
- Date: Wed, 6 Mar 2024 05:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:07:00.975577
- Title: Magic Markup: Maintaining Document-External Markup with an LLM
- Title(参考訳): Magic Markup: LLMによるドキュメント外部マークアップの維持
- Authors: Edward Misback, Zachary Tatlock, Steven L. Tanimoto
- Abstract要約: 修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
- 参考スコア(独自算出の注目度): 1.0538052824177144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text documents, including programs, typically have human-readable semantic
structure. Historically, programmatic access to these semantics has required
explicit in-document tagging. Especially in systems where the text has an
execution semantics, this means it is an opt-in feature that is hard to support
properly. Today, language models offer a new method: metadata can be bound to
entities in changing text using a model's human-like understanding of
semantics, with no requirements on the document structure. This method expands
the applications of document annotation, a fundamental operation in program
writing, debugging, maintenance, and presentation. We contribute a system that
employs an intelligent agent to re-tag modified programs, enabling rich
annotations to automatically follow code as it evolves. We also contribute a
formal problem definition, an empirical synthetic benchmark suite, and our
benchmark generator. Our system achieves an accuracy of 90% on our benchmarks
and can replace a document's tags in parallel at a rate of 5 seconds per tag.
While there remains significant room for improvement, we find performance
reliable enough to justify further exploration of applications.
- Abstract(参考訳): プログラムを含むテキスト文書は通常、人間が読める意味構造を持つ。
歴史的に、これらのセマンティクスへのプログラムによるアクセスには、文書内で明示的なタグ付けが必要である。
特にテキストが実行セマンティクスを持つシステムでは、これはオプトイン機能であり、適切にサポートすることが難しいことを意味する。
現在、言語モデルは、新しい方法を提供している: メタデータは、モデルの人間的な意味論の理解を使ってテキストを変更する際に、文書構造に不要なエンティティにバインドすることができる。
この方法は、プログラム記述、デバッグ、メンテナンス、プレゼンテーションにおける基本的な操作であるドキュメントアノテーションの応用を拡大する。
我々は、修正プログラムをタグ付けするためにインテリジェントエージェントを使用するシステムに貢献し、リッチアノテーションが進化するにつれて自動的にコードに従うことを可能にする。
また、形式的な問題定義、経験的ベンチマークスイート、ベンチマークジェネレータも提供します。
本システムでは,ベンチマークで90%の精度を実現し,1タグにつき5秒の速度で文書のタグを並列に置き換えることができる。
改善の余地はありますが、アプリケーションのさらなる調査を正当化するのに十分なパフォーマンスが得られます。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - MarkupLM: Pre-training of Text and Markup Language for Visually-rich
Document Understanding [35.35388421383703]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。
本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。
実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T09:17:28Z) - SenTag: a Web-based Tool for Semantic Annotation of Textual Documents [4.910379177401659]
SenTagはテキスト文書のセマンティックアノテーションに焦点を当てたウェブベースのツールである。
アプリケーションの主な目標は、タグ付けプロセスの容易化と、出力ドキュメントのエラーの削減と回避である。
また、テキストコーパスに係わるアノテータの合意のレベルを評価することもできる。
論文 参考訳(メタデータ) (2021-09-16T08:39:33Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Document-Level Definition Detection in Scholarly Documents: Existing
Models, Error Analyses, and Future Directions [40.64025648548128]
我々は,構文的特徴,トランスフォーマーエンコーダ,フィルタを利用した新たな定義検出システムHEDDExを開発し,標準文レベルのベンチマークで評価する。
HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。
論文 参考訳(メタデータ) (2020-10-11T01:16:10Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。