論文の概要: Self-Supervised Borrowing Detection on Multilingual Wordlists
- arxiv url: http://arxiv.org/abs/2512.01713v1
- Date: Mon, 01 Dec 2025 14:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.892197
- Title: Self-Supervised Borrowing Detection on Multilingual Wordlists
- Title(参考訳): 多言語単語リストにおける自己教師付きボロー検出
- Authors: Tim Wientzek,
- Abstract要約: 本稿では,多言語単語リストにおける借用語検出に対する完全自己教師型アプローチを提案する。
この手法は,大域対応モデルに基づくPMI類似度と,音声特徴ベクトルに基づいて訓練された軽量コントラスト成分の2つの情報源を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a fully self-supervised approach to borrowing detection in multilingual wordlists. The method combines two sources of information: PMI similarities based on a global correspondence model and a lightweight contrastive component trained on phonetic feature vectors. It further includes an automatic procedure for selecting decision thresholds without requiring labeled data. Experiments on benchmark datasets show that PMI alone already improves over existing string similarity measures such as NED and SCA, and that the combined similarity performs on par with or better than supervised baselines. An ablation study highlights the importance of character encoding, temperature settings and augmentation strategies. The approach scales to datasets of different sizes, works without manual supervision and is provided with a command-line tool that allows researchers to conduct their own studies.
- Abstract(参考訳): 本稿では,多言語単語リストにおける借用語検出に対する完全自己教師型アプローチを提案する。
この手法は,大域対応モデルに基づくPMI類似度と,音声特徴ベクトルに基づいて訓練された軽量コントラスト成分の2つの情報源を組み合わせる。
さらに、ラベル付きデータを必要とせずに決定しきい値を選択する自動手順を含む。
ベンチマークデータセットの実験では、PMIはNEDやSCAのような既存の文字列類似度よりも既に改善されており、組み合わせた類似度は教師付きベースラインと同等かそれ以上である。
アブレーション研究は、文字符号化、温度設定、拡張戦略の重要性を強調している。
このアプローチは、さまざまなサイズのデータセットにスケールし、手動による監督なしで動作し、研究者が独自の研究を行うためのコマンドラインツールを備えている。
関連論文リスト
- LLM-Augmented Changepoint Detection: A Framework for Ensemble Detection and Automated Explanation [2.6022681036325874]
本稿では,アンサンブル統計手法とLarge Language Models(LLM)を組み合わせた新しい変化点検出フレームワークを提案する。
提案手法は,10個の異なる変化点検出アルゴリズムの結果を集約し,個々の手法と比較して優れた性能とロバスト性を実現する。
プライベートまたはドメイン固有のデータに対して、Retrieval-Augmented Generation (RAG)ソリューションは、ユーザが提供するドキュメントに基盤を置く説明を可能にする。
論文 参考訳(メタデータ) (2026-01-06T12:04:38Z) - Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。
近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。
しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。
本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:44:44Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Multi-scale Promoted Self-adjusting Correlation Learning for Facial
Action Unit Detection [37.841035367349434]
AU(Facial Action Unit)検出は、感情コンピューティングと社会ロボティクスにおいて重要なタスクである。
以前の方法では、専門家の経験や特定のベンチマークの統計規則に基づいて、固定されたAU相関を用いた。
本稿では,自己調整型AU相関学習(SACL)手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T13:43:48Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。