論文の概要: Implementing LLMs in industrial process modeling: Addressing Categorical Variables
- arxiv url: http://arxiv.org/abs/2409.19097v1
- Date: Fri, 27 Sep 2024 18:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 04:30:57.906945
- Title: Implementing LLMs in industrial process modeling: Addressing Categorical Variables
- Title(参考訳): 産業プロセスモデリングにおけるLCMの実装:カテゴリー変数の対応
- Authors: Eleni D. Koronaki, Geremy Loachamin Suntaxi, Paris Papavasileiou, Dimitrios G. Giovanis, Martin Kathrein, Andreas G. Boudouvis, Stéphane P. A. Bordas,
- Abstract要約: LLM(Large Language Models)を用いて、それらの実際の意味を表す入力の埋め込みを導出する。
これは、分類変数を1と0のシーケンスに置き換えるためにバイナリまたは1ホットエンコーディングを使用する現在の標準的な慣習とは大きく異なる。
提案手法は、分類変数の符号化における現在の最先端(SotA)と比較して顕著な改善となる特徴的重要性を実現する。
- 参考スコア(独自算出の注目度): 0.17949062413635497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Important variables of processes are, in many occasions, categorical, i.e. names or labels representing, e.g. categories of inputs, or types of reactors or a sequence of steps. In this work, we use Large Language Models (LLMs) to derive embeddings of such inputs that represent their actual meaning, or reflect the ``distances" between categories, i.e. how similar or dissimilar they are. This is a marked difference from the current standard practice of using binary, or one-hot encoding to replace categorical variables with sequences of ones and zeros. Combined with dimensionality reduction techniques, either linear such as Principal Components Analysis (PCA), or nonlinear such as Uniform Manifold Approximation and Projection (UMAP), the proposed approach leads to a \textit{meaningful}, low-dimensional feature space. The significance of obtaining meaningful embeddings is illustrated in the context of an industrial coating process for cutting tools that includes both numerical and categorical inputs. The proposed approach enables feature importance which is a marked improvement compared to the current state-of-the-art (SotA) in the encoding of categorical variables.
- Abstract(参考訳): プロセスの重要な変数は、多くの場合、カテゴリー的、すなわち、入力のカテゴリ、または反応器の種類、または一連のステップを表す名前またはラベルである。
この研究では、Large Language Models (LLMs) を用いて、実際の意味を表す入力の埋め込みを導出する。
これは、分類変数を1と0のシーケンスに置き換えるためにバイナリまたは1ホットエンコーディングを使用する現在の標準的な慣習とは大きく異なる。
主成分分析 (PCA) のような線形あるいは一様多様体近似・射影 (UMAP) のような非線形の次元還元手法と組み合わせることで, 提案手法は低次元特徴空間であるtextit{ intendedful} へと導かれる。
数値入力と分類入力の両方を含む工具を切断する工業用コーティングプロセスの文脈において、意味のある埋め込みを得ることの重要性が示される。
提案手法は、分類変数の符号化における現在の最先端(SotA)と比較して顕著な改善となる特徴的重要性を実現する。
関連論文リスト
- Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - A prototype-based model for set classification [2.0564549686015594]
ベクトルの集合を表す一般的な方法は、それらを線型部分空間としてモデル化することである。
我々は、そのような線型部分空間、グラスマン多様体から形成される多様体について、プロトタイプベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-25T04:29:18Z) - Integrating supervised and unsupervised learning approaches to unveil critical process inputs [0.16584248697773404]
本研究では,大規模産業プロセスに適した機械学習フレームワークを提案する。
このフレームワークは、(i)出力に影響を与える臨界パラメータを識別し、(ii)生産結果の正確な質的および定量的な予測を生成することを目的としている。
論文 参考訳(メタデータ) (2024-05-13T13:50:44Z) - CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference [0.2209921757303168]
社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:47:07Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Word Boundary Information Isn't Useful for Encoder Language Models [8.1305024841559]
我々は、4つの異なる訓練尺度でトランスフォーマーエンコーダを訓練し、単語境界情報を含むいくつかの代替手法について検討する。
代替手法による大幅な改善は見つからず、単語境界情報を削除するトークンサの修正は有用な情報の喪失につながるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-01-15T19:21:08Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Retrieval-Augmented Classification with Decoupled Representation [31.662843145399044]
そこで本研究では,KNN(Kk$-nearest-neighbor)に基づく拡張分類検索手法を提案する。
分類と検索の共有表現がパフォーマンスを損なうことや,トレーニングの不安定化につながることが判明した。
本手法は,幅広い分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-23T06:33:06Z) - Open World Classification with Adaptive Negative Samples [89.2422451410507]
オープンワールド分類は、自然言語処理における重要な実践的妥当性と影響を伴う課題である。
そこで本研究では, アンダーライン適応型アンダーラインアンプ (ANS) に基づいて, 学習段階における効果的な合成オープンカテゴリサンプルを生成する手法を提案する。
ANSは最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-03-09T21:12:46Z) - Classification at the Accuracy Limit -- Facing the Problem of Data
Ambiguity [0.0]
データカテゴリの重複から生じる分類精度の理論的限界を示す。
睡眠中のMNISTとヒト脳波記録を用いて、教師なしおよび教師なしのトレーニングによって生成された新しいデータ埋め込みを比較した。
これは、手書き数字や睡眠段階などの人間定義カテゴリーを「自然種」とみなすことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-04T07:00:32Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - On Clustering Categories of Categorical Predictors in Generalized Linear
Models [0.0]
本稿では,分類予測器の存在下での一般化線形モデルの複雑性を低減する手法を提案する。
各カテゴリがダミー変数で表される従来のワンホット符号化は、無駄で解釈が難しく、過度に適合する傾向がある。
本稿では,カテゴリをクラスタリングすることでカテゴリ予測器の表現を小さくすることで,これらの課題に対処する。
論文 参考訳(メタデータ) (2021-10-19T15:36:35Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。