論文の概要: Building Whitespace-Sensitive Languages Using Whitespace-Insensitive Components
- arxiv url: http://arxiv.org/abs/2510.08200v1
- Date: Thu, 09 Oct 2025 13:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.093074
- Title: Building Whitespace-Sensitive Languages Using Whitespace-Insensitive Components
- Title(参考訳): ホワイトスペース非感性コンポーネントを用いたホワイトスペース感性言語の構築
- Authors: Alexander Hellwig, Nico Jansen, Bernhard Rumpe,
- Abstract要約: 本稿では,モジュール型・白色空間感応言語モジュールを用いて,白色空間感応言語を構築する手法を提案する。
私たちのソリューションは、既存の言語コンポーネントの再利用性を高め、開発時間を短縮し、ソフトウェア言語の全体的な品質を向上させることを目的としています。
- 参考スコア(独自算出の注目度): 42.44842805761906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Software Language Engineering, there is a trend towards reusability by composing modular language components. However, this reusability is severely inhibited by a gap in integrating whitespace-sensitive and whitespace-insensitive languages. There is currently no consistent procedure for seamlessly reusing such language components in both cases, such that libraries often cannot be reused, and whitespacesensitive languages are developed from scratch. This paper presents a technique for using modular, whitespaceinsensitive language modules to construct whitespace sensitive languages by pre-processing language artifacts before parsing. The approach is evaluated by reconstructing a simplified version of the programming language Python. Our solution aims to increase the reusability of existing language components to reduce development time and increase the overall quality of software languages.
- Abstract(参考訳): ソフトウェア言語工学では、モジュラー言語コンポーネントを構成することで再利用可能な傾向があります。
しかし、この再利用性は、ホワイトスペースに敏感な言語とホワイトスペースに敏感な言語の統合のギャップによって著しく阻害されている。
現在、両方のケースでこのような言語コンポーネントをシームレスに再利用するための一貫した手順は存在しない。
本稿では,モジュール型・白色空間依存型言語モジュールを用いて,構文解析の前に言語アーティファクトを前処理することで,白色空間依存型言語を構築する手法を提案する。
このアプローチは、プログラミング言語Pythonの簡易版を再構築することで評価される。
私たちのソリューションは、既存の言語コンポーネントの再利用性を高め、開発時間を短縮し、ソフトウェア言語の全体的な品質を向上させることを目的としています。
関連論文リスト
- LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
我々はLangSAMP(Language-Script Aware Multilingual Pretraining)を提案する。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。