論文の概要: TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification
- arxiv url: http://arxiv.org/abs/2403.16804v1
- Date: Mon, 25 Mar 2024 14:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 19:53:16.552613
- Title: TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification
- Title(参考訳): TEI2GO: 時間的表現の高速同定のための多言語的アプローチ
- Authors: Hugo Sousa, Ricardo Campos, Alípio Jorge,
- Abstract要約: TEI2GOモデルを導入し、HeidelTimeの有効性に匹敵するが、実行時間を大幅に改善した。
TEI2GOモデルをトレーニングするために,手動で注釈付けされた参照コーパスと,HeidelTimeに注釈付けされたニューステキストの包括的弱ラベル付きコーパスであるHeidelTime''を開発した。
コード、アノテーション、モデルは、コミュニティの探索と使用のために公開されています。
- 参考スコア(独自算出の注目度): 2.868883216530741
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal expression identification is crucial for understanding texts written in natural language. Although highly effective systems such as HeidelTime exist, their limited runtime performance hampers adoption in large-scale applications and production environments. In this paper, we introduce the TEI2GO models, matching HeidelTime's effectiveness but with significantly improved runtime, supporting six languages, and achieving state-of-the-art results in four of them. To train the TEI2GO models, we used a combination of manually annotated reference corpus and developed ``Professor HeidelTime'', a comprehensive weakly labeled corpus of news texts annotated with HeidelTime. This corpus comprises a total of $138,069$ documents (over six languages) with $1,050,921$ temporal expressions, the largest open-source annotated dataset for temporal expression identification to date. By describing how the models were produced, we aim to encourage the research community to further explore, refine, and extend the set of models to additional languages and domains. Code, annotations, and models are openly available for community exploration and use. The models are conveniently on HuggingFace for seamless integration and application.
- Abstract(参考訳): テンポラルな表現の識別は、自然言語で書かれたテキストを理解するために不可欠である。
HeidelTimeのような非常に効率的なシステムは存在するが、大規模なアプリケーションや運用環境では、実行時のパフォーマンスが制限されている。
本稿では, TEI2GOモデルを導入し, HeidelTimeの有効性に適合するが, ランタイムが大幅に向上し, 6言語をサポートし, そのうち4言語で最先端の成果が得られた。
TEI2GOモデルをトレーニングするために,手動で注釈付けされた参照コーパスと‘Professor HeidelTime'’を開発した。
このコーパスは、合計で38,069ドルのドキュメント(6言語以上)と1050,921ドルの時間表現を含む。
モデルがどのように作成されたかを説明することで、研究コミュニティがモデルをさらに探求し、洗練し、追加の言語やドメインに拡張することを目指している。
コード、アノテーション、モデルは、コミュニティの探索と使用のために公開されています。
モデルはシームレスな統合とアプリケーションのためにHuggingFace上で便利です。
関連論文リスト
- Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models [24.784375155633427]
BiTimeBERT 2.0は、テンポラリニュース記事コレクションに事前トレーニングされた新しい言語モデルである。
それぞれの目的は、時間情報のユニークな側面を目標としている。
その結果、BiTimeBERT 2.0はBERTや他の既存のトレーニング済みモデルよりも優れています。
論文 参考訳(メタデータ) (2024-06-04T00:30:37Z) - Time Machine GPT [15.661920010658626]
大規模言語モデル(LLM)は、広範かつ時間的に区別されないテキストコーパスでしばしば訓練される。
このアプローチは言語の性質の進化と一致していない。
本稿では,Time Machine GPT (TiMaGPT) と呼ばれる一連のポイントインタイムLCMを提案する。
論文 参考訳(メタデータ) (2024-04-29T09:34:25Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Most Language Models can be Poets too: An AI Writing Assistant and
Constrained Text Generation Studio [0.5097809301149341]
ほとんどの言語モデルは、大きな制約の下でも魅力的なテキストを生成する。
本稿では,言語モデルの語彙にフィルタ関数を合成することにより,言語モデルの出力を変更する手法を提案する。
また,この技術であるGadsbyを紹介するHuggingfaceスペースWebアプリケーションについても紹介する。
論文 参考訳(メタデータ) (2023-06-28T05:10:51Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Prompting Large Language Models to Reformulate Queries for Moment
Localization [79.57593838400618]
モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。
我々は,モーメントクエリを大規模言語モデルを用いて命令セットに再構成し,ローカライズモデルに親しみやすくするための初期の試みを行っている。
論文 参考訳(メタデータ) (2023-06-06T05:48:09Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Efficient and Interpretable Neural Models for Entity Tracking [3.1985066117432934]
この論文は、エンティティ追跡モデルの使用を促進するための2つの重要な問題に焦点を当てている。
我々は、リッチな固定次元ベクトル表現を持つエンティティを表現することによって、計算効率の良いエンティティ追跡モデルを開発することができると論じる。
i) NLPアプリケーションで現在ユビキタスに使われている事前学習言語モデルを考えると、より広い範囲のアプリケーションです。
論文 参考訳(メタデータ) (2022-08-30T13:25:27Z) - I still have Time(s): Extending HeidelTime for German Texts [63.22865852794608]
HeidelTimeはテキスト中の時間表現を検出するツールである。
HeidelTime-EXT はテキスト中の偽陰性を観測するために使用できる。
論文 参考訳(メタデータ) (2022-04-19T12:25:47Z) - Language modeling via stochastic processes [30.796382023812022]
現代の言語モデルは高品質の短いテキストを生成することができるが、長いテキストを生成するときにはしばしばメランジェや不整合である。
自己教師付き学習における最近の研究は、モデルが対照的な学習を通して優れた潜在表現を学習できることを示唆している。
本稿では,時間制御と呼ばれる構成表現を活用する方法を提案する。
論文 参考訳(メタデータ) (2022-03-21T22:13:53Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。