論文の概要: Semantic Alignment across Ancient Egyptian Language Stages via Normalization-Aware Multitask Learning
- arxiv url: http://arxiv.org/abs/2603.24258v1
- Date: Wed, 25 Mar 2026 12:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.295555
- Title: Semantic Alignment across Ancient Egyptian Language Stages via Normalization-Aware Multitask Learning
- Title(参考訳): 正規化を考慮したマルチタスク学習による古代エジプト語段階のセマンティックアライメント
- Authors: He Huang,
- Abstract要約: 古代エジプトの4つの歴史的段階における単語レベルのセマンティックアライメントについて検討した。
我々は、4段階すべてで共有バイトレベルのトークン化器を持つコンパクトエンコーダデコーダモデルを訓練する。
補助的な視点として,ラテン文字翻訳とIPA再構築を統合した。
- 参考スコア(独自算出の注目度): 5.63985701809237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study word-level semantic alignment across four historical stages of Ancient Egyptian. These stages differ in script and orthography, and parallel data are scarce. We jointly train a compact encoder-decoder model with a shared byte-level tokenizer on all four stages, combining masked language modeling (MLM), translation language modeling (TLM), sequence-to-sequence translation, and part-of-speech tagging under a task-aware loss with fixed weights and uncertainty-based scaling. To reduce surface divergence we add Latin transliteration and IPA reconstruction as auxiliary views. We integrate these views through KL-based consistency and through embedding-level fusion. We evaluate alignment quality using pairwise metrics, specifically ROC-AUC and triplet accuracy, on curated Egyptian-English and intra-Egyptian cognate datasets. Translation yields the strongest gains. IPA with KL consistency improves cross-branch alignment, while early fusion demonstrates limited efficacy. Although the overall alignment remains limited, the findings provide a reproducible baseline and practical guidance for modeling historical languages under real constraints. They also show how normalization and task design shape what counts as alignment in typologically distant settings.
- Abstract(参考訳): 古代エジプトの4つの歴史的段階における単語レベルのセマンティックアライメントについて検討した。
これらの段階はスクリプトと正書法で異なり、並列データは少ない。
マスク付き言語モデリング(MLM)、翻訳言語モデリング(TLM)、シーケンス間翻訳(Sequence-to-sequence translation)、および音声タグ付けを、固定重みと不確実性に基づくタスク認識損失下で組み合わせた、共有バイトレベルのトークン化器を備えたコンパクトエンコーダ・デコーダモデルを4段階すべてで共同で訓練する。
表面のばらつきを低減するために、補助的な視点としてラテン文字とIPA再構成を加えます。
我々はこれらのビューをKLベースの一貫性と埋め込みレベルの融合を通じて統合する。
エジプト英語およびエジプト語内コグネートデータセットを用いて、ペアワイズメトリクス、特にROC-AUCとトリプルト精度を用いてアライメント品質を評価する。
翻訳は最大の利益をもたらす。
KL整合性のあるIPAはクロスブランチアライメントを改善し、初期の融合は有効性に制限がある。
全体としてのアライメントは限られているが、実際の制約下での歴史言語をモデル化するための再現可能なベースラインと実践的なガイダンスを提供する。
それらはまた、正規化とタスクデザインが、タイプ論的に離れた環境でのアライメントとみなすものをどのように形作るかを示す。
関連論文リスト
- TransAlign: Machine Translation Encoders are Strong Word Aligners, Too [5.078113219758536]
本稿では,多言語機械翻訳モデルのエンコーダを利用した新しい単語整合器であるTransAlignを提案する。
本稿では,TransAlign が強力な WA 性能を実現し,従来の WA と最先端の非WA ラベルプロジェクション法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-31T10:14:51Z) - Linguistics-Vision Monotonic Consistent Network for Sign Language Production [45.12628941399177]
手話生成(SLP)は、音声言語文に対応する手話ビデオを生成することを目的としている。
クロスモーダルなセマンティックギャップのため、SLPは言語学と視覚の整合性に大きな課題を被る。
本稿では,SLPのためのトランスフォーマーベース言語ビジョンモノトニック一貫性ネットワーク(LVMCN)を提案する。
論文 参考訳(メタデータ) (2024-12-22T09:28:06Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。