論文の概要: Temporal Sequencing of Documents
- arxiv url: http://arxiv.org/abs/2311.02578v3
- Date: Sat, 21 Sep 2024 06:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:50:02.491967
- Title: Temporal Sequencing of Documents
- Title(参考訳): 文書のテンポラルシークエンシング
- Authors: Michael Gervers, Gelila Tilahun,
- Abstract要約: 文献の集合を時間順に並べる教師なしの方法について概説する。
提案手法は,帯域幅推定による単語使用量の漸進的な変化を捉えることに依存する。
この教師なしのアプローチは、未処理のドキュメントセットの時間的順序付けを可能にするべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We outline an unsupervised method for temporal rank ordering of sets of historical documents, namely American State of the Union Addresses and DEEDS, a corpus of medieval English property transfer documents. Our method relies upon effectively capturing the gradual change in word usage via a bandwidth estimate for the non-parametric Generalized Linear Models (Fan, Heckman, and Wand, 1995). The number of possible rank orders needed to search through for cost functions related to the bandwidth can be quite large, even for a small set of documents. We tackle this problem of combinatorial optimization using the Simulated Annealing algorithm, which allows us to obtain the optimal document temporal orders. Our rank ordering method significantly improved the temporal sequencing of both corpora compared to a randomly sequenced baseline. This unsupervised approach should enable the temporal ordering of undated document sets.
- Abstract(参考訳): 我々は、中世イングランドの資産譲渡文書のコーパスである「アメリカ連邦演説」と「DEEDS」という、歴史的文書の集合を時間順に並べる、教師なしの方法の概要を述べる。
本手法は,非パラメトリック一般化線形モデル(Fan, Heckman, Wand, 1995)の帯域幅推定により,単語使用量の漸進的変化を効果的に把握することに依存する。
帯域幅に関連するコスト関数を検索するために必要なランクオーダーの数は、ドキュメントの小さなセットであっても、非常に大きい。
シミュレート・アニーリング(Simulated Annealing)アルゴリズムを用いた組合せ最適化の問題に対処し、最適文書時間順序を求める。
ランク順序付け法は, ランダムに配列されたベースラインと比較して, 両コーパスの時間的シークエンシングを著しく改善した。
この教師なしのアプローチは、未処理のドキュメントセットの時間的順序付けを可能にするべきである。
関連論文リスト
- Top-Down Partitioning for Efficient List-Wise Ranking [24.600506147325717]
本稿では、ランクを深さkに分割し、文書をトップダウンで処理する新しいアルゴリズムを提案する。
このアルゴリズムは、文書から任意の深さまでを同時に比較できるピボット要素を用いることにより、本質的に並列化可能である。
論文 参考訳(メタデータ) (2024-05-23T14:00:26Z) - TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。
本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文 参考訳(メタデータ) (2024-02-04T13:10:51Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Generalized Time Warping Invariant Dictionary Learning for Time Series
Classification and Clustering [8.14208923345076]
動的時間ワープ(DTW)は、時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使用される。
本稿では,時変不変辞書学習アルゴリズムを提案する。
辞書学習,分類,クラスタリングの観点から,提案手法の優位性を10組の公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-06-30T14:18:13Z) - An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks [27.895044398724664]
教師なし長文要約のためのC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)フレームワークを提案する。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
論文 参考訳(メタデータ) (2022-08-17T12:18:36Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Elastic Product Quantization for Time Series [19.839572576189187]
本稿では,時間ゆらぎの時間系列の効率的な類似度に基づく比較に製品量子化を用いることを提案する。
提案手法は, 時系列アプリケーションにおける弾性測度を, 高効率(メモリ使用量と時間の両方)で置き換える手法として現れる。
論文 参考訳(メタデータ) (2022-01-04T09:23:06Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。