論文の概要: Archive TimeLine Summarization (ATLS): Conceptual Framework for Timeline
Generation over Historical Document Collections
- arxiv url: http://arxiv.org/abs/2301.13479v1
- Date: Tue, 31 Jan 2023 08:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:04:17.363258
- Title: Archive TimeLine Summarization (ATLS): Conceptual Framework for Timeline
Generation over Historical Document Collections
- Title(参考訳): アーカイブTimeLine Summarization (ATLS): 歴史的文書コレクション上のタイムライン生成のための概念的フレームワーク
- Authors: Nicolas Gutehrl\'e (CRIT), Antoine Doucet (L3I), Adam Jatowt
- Abstract要約: 本稿では,アーカイブコレクション上でのTimeLine Summarization(TLS)手法を拡張して研究を支援することを提案する。
本稿では,情報的,可読的,解釈可能なタイムラインを生成することを目的とした,アーカイブタイムライン要約(ATLS)システムの概念的フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 17.332692582748408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Archive collections are nowadays mostly available through search engines
interfaces, which allow a user to retrieve documents by issuing queries. The
study of these collections may be, however, impaired by some aspects of search
engines, such as the overwhelming number of documents returned or the lack of
contextual knowledge provided. New methods that could work independently or in
combination with search engines are then required to access these collections.
In this position paper, we propose to extend TimeLine Summarization (TLS)
methods on archive collections to assist in their studies. We provide an
overview of existing TLS methods and we describe a conceptual framework for an
Archive TimeLine Summarization (ATLS) system, which aims to generate
informative, readable and interpretable timelines.
- Abstract(参考訳): アーカイブコレクションは、主に検索エンジンインターフェースを通じて利用可能であり、ユーザーはクエリを発行することで文書を検索できる。
しかし、これらのコレクションの研究は、返されたドキュメントの圧倒的数や文脈知識の欠如など、検索エンジンのいくつかの側面によって損なわれる可能性がある。
独立して、あるいは検索エンジンと組み合わせて動作する新しいメソッドは、これらのコレクションにアクセスするために必要となる。
本稿では,その研究を支援するため,アーカイブコレクションにTimeLine Summarization(TLS)メソッドを拡張することを提案する。
本稿では,既存のTLS手法の概要と,情報,可読性,解釈可能なタイムラインを生成することを目的とした,アーカイブタイムライン要約(ATLS)システムの概念的フレームワークについて述べる。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion [41.21789597997263]
本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - IncDSI: Incrementally Updatable Document Retrieval [32.89218578877908]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - CED: Catalog Extraction from Documents [12.037861186708799]
本稿では,文書をカタログ木に解析するトランジションベースのフレームワークを提案する。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
論文 参考訳(メタデータ) (2023-04-28T07:32:00Z) - Topic Segmentation of Research Article Collections [4.0810783261728565]
紙データ収集のトピックセグメンテーションを行い、約700万枚の紙データ記録のマルチトピックデータセットを生成した。
データ記録から抽出したトピックの分類を構築し、その分類から対応するトピックで各ドキュメントに注釈を付ける。
この新たに提案されたデータセットは、様々な分野の文書の異種コレクションとして、あるいは単一の研究トピックの同種コレクションの集合として、2つのモードで使用できる。
論文 参考訳(メタデータ) (2022-05-18T15:19:42Z) - ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question
Answering over Archival News Collections [20.07130742712862]
本稿では,1067,056組の質問応答データセットArchivealQAを提案する。
課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成する。
論文 参考訳(メタデータ) (2021-09-08T05:21:51Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。