論文の概要: I still have Time(s): Extending HeidelTime for German Texts
- arxiv url: http://arxiv.org/abs/2204.08848v1
- Date: Tue, 19 Apr 2022 12:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 17:22:41.849463
- Title: I still have Time(s): Extending HeidelTime for German Texts
- Title(参考訳): 私はまだ時間を持っている:ドイツ語のテキストにHeidelTimeを拡張する
- Authors: Andy L\"ucking, Manuel Stoeckel, Giuseppe Abrami, Alexander Mehler
- Abstract要約: HeidelTimeはテキスト中の時間表現を検出するツールである。
HeidelTime-EXT はテキスト中の偽陰性を観測するために使用できる。
- 参考スコア(独自算出の注目度): 63.22865852794608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HeidelTime is one of the most widespread and successful tools for detecting
temporal expressions in texts. Since HeidelTime's pattern matching system is
based on regular expression, it can be extended in a convenient way. We present
such an extension for the German resources of HeidelTime: HeidelTime-EXT . The
extension has been brought about by means of observing false negatives within
real world texts and various time banks. The gain in coverage is 2.7% or 8.5%,
depending on the admitted degree of potential overgeneralization. We describe
the development of HeidelTime-EXT, its evaluation on text samples from various
genres, and share some linguistic observations. HeidelTime ext can be obtained
from https://github.com/texttechnologylab/heideltime.
- Abstract(参考訳): HeidelTimeはテキスト中の時間表現を検出する最も広く成功したツールの1つである。
HeidelTimeのパターンマッチングシステムは正規表現に基づいているため、便利な方法で拡張することができる。
heideltime-ext という,ドイツのハイデルタイムの資源に対する拡張について述べる。
この拡張は、現実世界のテキストや様々な時間銀行で偽の否定を観察することでもたらされた。
カバレッジの上昇率は2.7%または8.5%であり、潜在的な過剰一般化の程度に依存する。
本稿では,ハイデルタイムextの開発,様々なジャンルのテキストサンプルによる評価,言語観察について述べる。
HeidelTime extはhttps://github.com/texttechnologylab/heideltimeから入手できる。
関連論文リスト
- HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification [2.868883216530741]
TEI2GOモデルを導入し、HeidelTimeの有効性に匹敵するが、実行時間を大幅に改善した。
TEI2GOモデルをトレーニングするために,手動で注釈付けされた参照コーパスと,HeidelTimeに注釈付けされたニューステキストの包括的弱ラベル付きコーパスであるHeidelTime''を開発した。
コード、アノテーション、モデルは、コミュニティの探索と使用のために公開されています。
論文 参考訳(メタデータ) (2024-03-25T14:23:03Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - REST: Retrieval-Based Speculative Decoding [69.06115086237207]
本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。
投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。
単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
論文 参考訳(メタデータ) (2023-11-14T15:43:47Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Time-aware Prompting for Text Generation [17.58231642569116]
文書作成日時などのタイムスタンプを世代システムに組み込む効果について検討する。
1) 自然言語文中の文書のタイムスタンプをエンコードするテキストプロンプト,(2) タイムスタンプを連続ベクトルに変換する線形プロンプト。
論文 参考訳(メタデータ) (2022-11-03T22:10:25Z) - XLTime: A Cross-Lingual Knowledge Transfer Framework for Temporal
Expression Extraction [63.39190486298887]
テンポラル表現抽出(TEE)は自然言語の時間理解に不可欠である。
現在、この領域での作業は、他の言語に対するラベル付きデータが不足しているため、主に英語に焦点を当てている。
我々は,多言語TEEのための新しいフレームワークであるXLTimeを提案する。
論文 参考訳(メタデータ) (2022-05-03T20:00:42Z) - Language modeling via stochastic processes [30.796382023812022]
現代の言語モデルは高品質の短いテキストを生成することができるが、長いテキストを生成するときにはしばしばメランジェや不整合である。
自己教師付き学習における最近の研究は、モデルが対照的な学習を通して優れた潜在表現を学習できることを示唆している。
本稿では,時間制御と呼ばれる構成表現を活用する方法を提案する。
論文 参考訳(メタデータ) (2022-03-21T22:13:53Z) - Time Masking for Temporal Language Models [23.08079115356717]
本研究では,テキストの付加文脈として時間を用いるテンポバーベットという時間的文脈言語モデルを提案する。
本手法は,時相情報によるテキストの修正と時間マスキング(補足時間情報に対する特定のマスキング)に基づく。
論文 参考訳(メタデータ) (2021-10-12T21:15:23Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。