論文の概要: Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection
- arxiv url: http://arxiv.org/abs/2604.14397v1
- Date: Wed, 15 Apr 2026 20:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.596483
- Title: Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection
- Title(参考訳): 辞書に基づくクロスリンガル・センス投影による概念語彙生成
- Authors: David Basil, Chirooth Girigowda, Bradley Hauer, Sahir Momin, Ning Shi, Grzegorz Kondrak,
- Abstract要約: 目的語補題と既存の語彙概念をセマンティック・プロジェクションで関連付けることで感覚を生成する。
提案手法は,英語の構文をアライメントされたターゲット言語トークンに投影し,対応する補題をそれらの合成集合に割り当てる。
本手法を,辞書ベースおよび大規模言語モデルベースラインと同様に,先行手法と比較し,複数の言語で評価する。
- 参考スコア(独自算出の注目度): 11.136711217530157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the task of automatically expanding WordNet-style lexical resources to new languages through sense generation. We generate senses by associating target-language lemmas with existing lexical concepts via semantic projection. Given a sense-tagged English corpus and its translation, our method projects English synsets onto aligned target-language tokens and assigns the corresponding lemmas to those synsets. To generate these alignments and ensure their quality, we augment a pre-trained base aligner with a bilingual dictionary, which is also used to filter out incorrect sense projections. We evaluate the method on multiple languages, comparing it to prior methods, as well as dictionary-based and large language model baselines. Results show that the proposed project-and-filter strategy improves precision while remaining interpretable and requiring few external resources. We plan to make our code, documentation, and generated sense inventories accessible.
- Abstract(参考訳): 本稿では,WordNetスタイルの語彙リソースをセンス生成によって新しい言語に自動的に拡張するタスクについて検討する。
目的語補題と既存の語彙概念をセマンティック・プロジェクションで関連付けることで感覚を生成する。
感覚タグ付き英語コーパスとその翻訳が与えられた場合、我々の手法は、英語のシンセットをアライメントされたターゲット言語トークンに投影し、対応するレムマをそれらのシンセットに割り当てる。
これらのアライメントを生成し,その品質を確保するために,トレーニング済みのベースアライメントをバイリンガル辞書で強化する。
本手法を,辞書ベースおよび大規模言語モデルベースラインと同様に,先行手法と比較し,複数の言語で評価する。
提案したプロジェクト・アンド・フィルタ戦略は,解釈可能でありながら,外部資源の少ない精度で精度を向上することを示す。
コード、ドキュメンテーション、生成したセンスインベントリをアクセス可能にする予定です。
関連論文リスト
- Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval [5.359439761925416]
本稿では,統一的,スタイル不変な視覚埋め込みを学習する軽量な非対称なデュアルエンコーダフレームワークを提案する。
インスタンスレベルのアライメントとクラスレベルのセマンティック一貫性を共同で最適化することにより、言語に依存しないセマンティックプロトタイプに視覚的な埋め込みをアンロックする。
実験の結果,本手法は言語内検索ベンチマークにおいて,28のベースラインと最先端の精度に優れていた。
論文 参考訳(メタデータ) (2026-01-16T12:55:41Z) - Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries [22.562544826766917]
言語間の語彙移動は、事前訓練された言語モデルを新しい言語に適応させる上で有望な役割を担っている。
モノリンガルまたはパラレルコーパスを利用する既存のアプローチは、限られたリソースを持つ言語に適用する場合、課題に直面します。
論文 参考訳(メタデータ) (2025-06-02T10:52:52Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - End-to-End Slot Alignment and Recognition for Cross-Lingual NLU [9.399840807973545]
そこで本稿では,言語間移動のための目標スロットラベルの整列と予測を学習する,新しいエンドツーエンドモデルを提案する。
我々は,新たな多言語NLUコーパスであるMultiATIS++を導入し,多言語ATISコーパスを4つの言語ファミリーにまたがる9言語に拡張した。
その結果,本手法は,多くの言語で高速アライメントを用いた単純なラベルプロジェクション法よりも優れており,トレーニング時間の半分しか持たない,より複雑で最先端のプロジェクション法と競合する性能が得られた。
論文 参考訳(メタデータ) (2020-04-29T17:31:11Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。