論文の概要: Knowledge-Centric Templatic Views of Documents
- arxiv url: http://arxiv.org/abs/2401.06945v1
- Date: Sat, 13 Jan 2024 01:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:45:32.604084
- Title: Knowledge-Centric Templatic Views of Documents
- Title(参考訳): 知識中心の文書のテンポラティックな見方
- Authors: Isabel Cachola, Silviu Cucerzan, Allen Herring, Vuksan Mijovic, Erik
Oveson, Sujay Kumar Jauhar
- Abstract要約: 著者はしばしば、異なる文書やフォーマットで同じ基礎知識について考えを組み立てる。
ドキュメント生成における以前の作業は、一般的に、各個別のフォーマットの作成をタスクが異なるものとみなしていた。
このアプローチは、研究とアプリケーションの両方の観点からAIが支援するコンテンツ作成の進歩に最適である。
- 参考スコア(独自算出の注目度): 2.8122829028152787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authors seeking to communicate with broader audiences often compose their
ideas about the same underlying knowledge in different documents and formats --
for example, as slide decks, newsletters, reports, brochures, etc. Prior work
in document generation has generally considered the creation of each separate
format to be different a task, developing independent methods for generation
and evaluation. This approach is suboptimal for the advancement of AI-supported
content authoring from both research and application perspectives because it
leads to fragmented learning processes, redundancy in models and methods, and
disjointed evaluation. Thus, in our work, we consider each of these documents
to be templatic views of the same underlying knowledge, and we aim to unify the
generation and evaluation of these templatic views of documents. We begin by
introducing an LLM-powered method to extract the most important information
from an input document and represent this information in a structured format.
We show that this unified representation can be used to generate multiple
templatic views with no supervision and with very little guidance, improving
over strong baselines. We additionally introduce a unified evaluation method
that is template agnostic, and can be adapted to building document generators
for heterogeneous downstream applications. Finally, we conduct a human
evaluation, which shows that humans prefer 82% of the downstream documents
generated with our method. Furthermore, the newly proposed evaluation metric
correlates more highly with human judgement than prior metrics, while providing
a unified evaluation method.
- Abstract(参考訳): 幅広いオーディエンスとコミュニケーションしたい著者は、異なるドキュメントやフォーマット(例えば、スライドデッキ、ニュースレター、レポート、パンフレットなど)で、同じ基礎となる知識についてアイデアを構成することが多い。
文書生成における先行研究は、タスクごとに異なるフォーマットの作成を考慮し、生成と評価のための独立した手法を開発してきた。
このアプローチは、断片化された学習プロセス、モデルとメソッドの冗長性、そして解離した評価につながるため、研究とアプリケーションの両方の観点からAIが支援するコンテンツの進行に最適である。
そこで本研究では,これらの文書を同一知識のテンポラティクス的視点とみなし,これらの文書のテンポラティクス的視点の生成と評価を統一することを目的としている。
まず,入力文書から最も重要な情報を抽出し,その情報を構造化形式で表現するためのllm方式を導入する。
この統一表現は、監督がなく、ガイダンスもほとんどなく、強力なベースラインよりも改善された複数のテンポラティックビューを生成するために使用できることを示す。
さらに,テンプレートに依存しない統一評価手法を導入し,異種下流アプリケーションのための文書生成器の構築に適用する。
最後に,人間による評価を行い,提案手法で生成された下流文書の82%を人間が好むことを示した。
さらに,新たに提案した評価基準は,従来の評価基準よりも人間の判断と相関し,統一評価手法を提供する。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - Summarizing Multiple Documents with Conversational Structure for
Meta-Review Generation [45.9443710073576]
学術論文のメタレビューを作成するための新しいデータセットであるPeerSumを提示する。
Rammerは、会話構造に基づくスパースアテンションと、メタデータ機能を予測するトレーニング目標を利用するモデルである。
論文 参考訳(メタデータ) (2023-05-02T15:18:18Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。