論文の概要: Knowledge-Centric Templatic Views of Documents
- arxiv url: http://arxiv.org/abs/2401.06945v1
- Date: Sat, 13 Jan 2024 01:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:45:32.604084
- Title: Knowledge-Centric Templatic Views of Documents
- Title(参考訳): 知識中心の文書のテンポラティックな見方
- Authors: Isabel Cachola, Silviu Cucerzan, Allen Herring, Vuksan Mijovic, Erik
Oveson, Sujay Kumar Jauhar
- Abstract要約: 著者はしばしば、異なる文書やフォーマットで同じ基礎知識について考えを組み立てる。
ドキュメント生成における以前の作業は、一般的に、各個別のフォーマットの作成をタスクが異なるものとみなしていた。
このアプローチは、研究とアプリケーションの両方の観点からAIが支援するコンテンツ作成の進歩に最適である。
- 参考スコア(独自算出の注目度): 2.8122829028152787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authors seeking to communicate with broader audiences often compose their
ideas about the same underlying knowledge in different documents and formats --
for example, as slide decks, newsletters, reports, brochures, etc. Prior work
in document generation has generally considered the creation of each separate
format to be different a task, developing independent methods for generation
and evaluation. This approach is suboptimal for the advancement of AI-supported
content authoring from both research and application perspectives because it
leads to fragmented learning processes, redundancy in models and methods, and
disjointed evaluation. Thus, in our work, we consider each of these documents
to be templatic views of the same underlying knowledge, and we aim to unify the
generation and evaluation of these templatic views of documents. We begin by
introducing an LLM-powered method to extract the most important information
from an input document and represent this information in a structured format.
We show that this unified representation can be used to generate multiple
templatic views with no supervision and with very little guidance, improving
over strong baselines. We additionally introduce a unified evaluation method
that is template agnostic, and can be adapted to building document generators
for heterogeneous downstream applications. Finally, we conduct a human
evaluation, which shows that humans prefer 82% of the downstream documents
generated with our method. Furthermore, the newly proposed evaluation metric
correlates more highly with human judgement than prior metrics, while providing
a unified evaluation method.
- Abstract(参考訳): 幅広いオーディエンスとコミュニケーションしたい著者は、異なるドキュメントやフォーマット(例えば、スライドデッキ、ニュースレター、レポート、パンフレットなど)で、同じ基礎となる知識についてアイデアを構成することが多い。
文書生成における先行研究は、タスクごとに異なるフォーマットの作成を考慮し、生成と評価のための独立した手法を開発してきた。
このアプローチは、断片化された学習プロセス、モデルとメソッドの冗長性、そして解離した評価につながるため、研究とアプリケーションの両方の観点からAIが支援するコンテンツの進行に最適である。
そこで本研究では,これらの文書を同一知識のテンポラティクス的視点とみなし,これらの文書のテンポラティクス的視点の生成と評価を統一することを目的としている。
まず,入力文書から最も重要な情報を抽出し,その情報を構造化形式で表現するためのllm方式を導入する。
この統一表現は、監督がなく、ガイダンスもほとんどなく、強力なベースラインよりも改善された複数のテンポラティックビューを生成するために使用できることを示す。
さらに,テンプレートに依存しない統一評価手法を導入し,異種下流アプリケーションのための文書生成器の構築に適用する。
最後に,人間による評価を行い,提案手法で生成された下流文書の82%を人間が好むことを示した。
さらに,新たに提案した評価基準は,従来の評価基準よりも人間の判断と相関し,統一評価手法を提供する。
関連論文リスト
- Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Evaluating a Methodology for Increasing AI Transparency: A Case Study [8.265282762929509]
人工知能の潜在的な害に対する懸念が高まる中、社会はAIモデルとシステムがどのように作成され、使用されるかについて、より透明性を求めるようになった。
これらの懸念に対処するため、いくつかの取り組みが、モデル開発者が答えるべき質問を含むドキュメンテーションテンプレートを提案している。
多様なドキュメントコンシューマのニーズをカバーできるテンプレートはひとつもありません。
論文 参考訳(メタデータ) (2022-01-24T20:01:01Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。