論文の概要: Building Metadata Inference Using a Transducer Based Language Model
- arxiv url: http://arxiv.org/abs/2212.01964v1
- Date: Mon, 5 Dec 2022 00:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:18:05.810873
- Title: Building Metadata Inference Using a Transducer Based Language Model
- Title(参考訳): トランスデューサに基づく言語モデルを用いたメタデータ推論の構築
- Authors: David Waterworth and Subbu Sethuvenkatraman and Quan Z. Sheng
- Abstract要約: メタデータ構築に使用される語彙は、一般的な自然言語と比較して小さく見える。
本稿では,トランスデューサに基づく言語モデルを用いて構築点メタデータを解析・正規化するための予備解析を行う。
- 参考スコア(独自算出の注目度): 15.794801893169588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving the challenges of automatic machine translation of Building
Automation System text metadata is a crucial first step in efficiently
deploying smart building applications. The vocabulary used to describe building
metadata appears small compared to general natural languages, but each term has
multiple commonly used abbreviations. Conventional machine learning techniques
are inefficient since they need to learn many different forms for the same
word, and large amounts of data must be used to train these models. It is also
difficult to apply standard techniques such as tokenisation since this commonly
results in multiple output tags being associated with a single input token,
something traditional sequence labelling models do not allow. Finite State
Transducers can model sequence-to-sequence tasks where the input and output
sequences are different lengths, and they can be combined with language models
to ensure a valid output sequence is generated. We perform a preliminary
analysis into the use of transducer-based language models to parse and
normalise building point metadata.
- Abstract(参考訳): Building Automation Systemのテキストメタデータの自動機械翻訳の課題を解決することは、スマートなビルディングアプリケーションを効率的にデプロイするための重要な第一歩です。
メタデータの構築に使われる語彙は、一般的な自然言語に比べて小さいように見えるが、各用語には複数の略語がある。
従来の機械学習技術は、同じ単語に対して多くの異なるフォームを学習する必要があるため、非効率であり、これらのモデルをトレーニングするために大量のデータを使用する必要がある。
トークン化のような標準技術を適用することも困難である。これは通常、複数の出力タグが単一の入力トークンに関連付けられるため、従来のシーケンスラベリングモデルでは不可能である。
有限状態トランスデューサは、入力シーケンスと出力シーケンスが異なる長さのシーケンス-シーケンスタスクをモデル化することができ、言語モデルと組み合わせて有効な出力シーケンスを生成することができる。
構築点メタデータを解析・正規化するために,トランスデューサを用いた言語モデルを用いた予備分析を行う。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Metadata Matters for Time Series: Informative Forecasting with Transformers [70.38241681764738]
時系列予測のためのMetaTST(Metadata-informed Time Series Transformer)を提案する。
メタデータの非構造化の性質に取り組むため、MetaTSTは、事前に設計されたテンプレートによってそれらを自然言語に形式化する。
Transformerエンコーダは、メタデータ情報によるシーケンス表現を拡張するシリーズトークンとメタデータトークンの通信に使用される。
論文 参考訳(メタデータ) (2024-10-04T11:37:55Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Sequence-to-Sequence Piano Transcription with Transformers [6.177271244427368]
標準的な復号法を用いたエンコーダ・デコーダ変換器を用いて,等価な性能が得られることを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換することを学習できることを実証する。
論文 参考訳(メタデータ) (2021-07-19T20:33:09Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。