論文の概要: Digestion Algorithm in Hierarchical Symbolic Forests: A Fast Text Normalization Algorithm and Semantic Parsing Framework for Specific Scenarios and Lightweight Deployment
- arxiv url: http://arxiv.org/abs/2412.14054v1
- Date: Wed, 18 Dec 2024 17:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:19.742886
- Title: Digestion Algorithm in Hierarchical Symbolic Forests: A Fast Text Normalization Algorithm and Semantic Parsing Framework for Specific Scenarios and Lightweight Deployment
- Title(参考訳): 階層型シンボリック林における消化アルゴリズム:高速テキスト正規化アルゴリズムと特定のシナリオと軽量展開のための意味解析フレームワーク
- Authors: Kevin You,
- Abstract要約: テキスト正規化とセマンティックパーシングは、自然言語プログラミング、パラフレージング、データ拡張、エキスパートシステムの構築、テキストマッチングなど、自然言語処理に多くの応用がある。
大規模言語モデル(LLM)におけるディープラーニング(Deep Learning)の顕著な成果にもかかわらず、ニューラルネットワークアーキテクチャの解釈性はまだ貧弱であり、信頼性に影響を与え、結果としてリスクに敏感なシナリオの展開を制限する。
データが少ない特定のシナリオ固有のドメインでは、大量の教師付き学習ラベルを素早く取得することは困難であり、手動でラベル付けするデータのワークロードは膨大である。
DAHSFはテキストを組み合わせてこれらの問題に対処するために提案されている
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Text Normalization and Semantic Parsing have numerous applications in natural language processing, such as natural language programming, paraphrasing, data augmentation, constructing expert systems, text matching, and more. Despite the prominent achievements of deep learning in Large Language Models (LLMs), the interpretability of neural network architectures is still poor, which affects their credibility and hence limits the deployments of risk-sensitive scenarios. In certain scenario-specific domains with scarce data, rapidly obtaining a large number of supervised learning labels is challenging, and the workload of manually labeling data would be enormous. Catastrophic forgetting in neural networks further leads to low data utilization rates. In situations where swift responses are vital, the density of the model makes local deployment difficult and the response time long, which is not conducive to local applications of these fields. Inspired by the multiplication rule, a principle of combinatorial mathematics, and human thinking patterns, a multilayer framework along with its algorithm, the Digestion Algorithm in Hierarchical Symbolic Forests (DAHSF), is proposed to address these above issues, combining text normalization and semantic parsing workflows. The Chinese Scripting Language "Fire Bunny Intelligent Development Platform V2.0" is an important test and application of the technology discussed in this paper. DAHSF can run locally in scenario-specific domains on little datasets, with model size and memory usage optimized by at least two orders of magnitude, thus improving the execution speed, and possessing a promising optimization outlook.
- Abstract(参考訳): テキスト正規化とセマンティックパーシングは、自然言語プログラミング、パラフレージング、データ拡張、エキスパートシステムの構築、テキストマッチングなど、自然言語処理に多くの応用がある。
大規模言語モデル(LLM)におけるディープラーニング(Deep Learning)の顕著な成果にもかかわらず、ニューラルネットワークアーキテクチャの解釈性はまだ貧弱であり、信頼性に影響を与え、結果としてリスクに敏感なシナリオの展開を制限する。
データが少ない特定のシナリオ固有のドメインでは、大量の教師付き学習ラベルを素早く取得することは困難であり、手動でラベル付けするデータのワークロードは膨大である。
ニューラルネットワークの破滅的な忘れは、データ利用率の低下につながる。
迅速な応答が不可欠である状況では、モデルの密度が局所的な展開を困難にし、応答時間が長くなるため、これらの分野の局所的な応用には適さない。
合成数学の原理である乗法則や人間の思考パターンに着想を得て,そのアルゴリズムである階層的シンボリックフォレストにおける消化アルゴリズム(Digestion Algorithm in Hierarchical Symbolic Forests,DAHSF)を用いて,テキスト正規化と意味解析のワークフローを組み合わせたこれらの問題に対処する。
中国のスクリプト言語"Fire Bunny Intelligent Development Platform V2.0"は,本論文で論じる技術の重要な試験と応用である。
DAHSFは、モデルサイズとメモリ使用量を少なくとも2桁以上最適化することで、シナリオ固有のドメインで小さなデータセット上でローカルに実行できるため、実行速度が向上し、期待できる最適化見通しを持つ。
関連論文リスト
- Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - Multi-agent Planning using Visual Language Models [2.2369578015657954]
大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。
LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。
本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:10:17Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Semantic Parsing in Limited Resource Conditions [19.689433249830465]
この論文はセマンティック解析における課題を探求し、特に限られたデータと計算資源のシナリオに焦点を当てている。
自動データキュレーション、知識伝達、アクティブラーニング、継続的な学習といったテクニックを使ったソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-14T05:03:09Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Effective Transfer Learning for Low-Resource Natural Language
Understanding [15.752309656576129]
低リソース問題に対処するために、言語横断とドメイン横断の手法の開発に注力する。
まず、タスク関連キーワードに着目して、モデルの言語間能力を改善することを提案する。
第2に,言語間適応のための秩序再現型モデリング手法を提案する。
第3に、クロスドメイン適応のための事前学習において、異なるレベルのドメイン関連コーパスと追加データマスキングを活用することを提案する。
論文 参考訳(メタデータ) (2022-08-19T06:59:00Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。