論文の概要: Self-Supervised Borrowing Detection on Multilingual Wordlists
- arxiv url: http://arxiv.org/abs/2512.01713v1
- Date: Mon, 01 Dec 2025 14:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.892197
- Title: Self-Supervised Borrowing Detection on Multilingual Wordlists
- Title(参考訳): 多言語単語リストにおける自己教師付きボロー検出
- Authors: Tim Wientzek,
- Abstract要約: 本稿では,多言語単語リストにおける借用語検出に対する完全自己教師型アプローチを提案する。
この手法は,大域対応モデルに基づくPMI類似度と,音声特徴ベクトルに基づいて訓練された軽量コントラスト成分の2つの情報源を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a fully self-supervised approach to borrowing detection in multilingual wordlists. The method combines two sources of information: PMI similarities based on a global correspondence model and a lightweight contrastive component trained on phonetic feature vectors. It further includes an automatic procedure for selecting decision thresholds without requiring labeled data. Experiments on benchmark datasets show that PMI alone already improves over existing string similarity measures such as NED and SCA, and that the combined similarity performs on par with or better than supervised baselines. An ablation study highlights the importance of character encoding, temperature settings and augmentation strategies. The approach scales to datasets of different sizes, works without manual supervision and is provided with a command-line tool that allows researchers to conduct their own studies.
- Abstract(参考訳): 本稿では,多言語単語リストにおける借用語検出に対する完全自己教師型アプローチを提案する。
この手法は,大域対応モデルに基づくPMI類似度と,音声特徴ベクトルに基づいて訓練された軽量コントラスト成分の2つの情報源を組み合わせる。
さらに、ラベル付きデータを必要とせずに決定しきい値を選択する自動手順を含む。
ベンチマークデータセットの実験では、PMIはNEDやSCAのような既存の文字列類似度よりも既に改善されており、組み合わせた類似度は教師付きベースラインと同等かそれ以上である。
アブレーション研究は、文字符号化、温度設定、拡張戦略の重要性を強調している。
このアプローチは、さまざまなサイズのデータセットにスケールし、手動による監督なしで動作し、研究者が独自の研究を行うためのコマンドラインツールを備えている。
関連論文リスト
- Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。
近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。
しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。
本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:44:44Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。