論文の概要: ALPET: Active Few-shot Learning for Citation Worthiness Detection in Low-Resource Wikipedia Languages
- arxiv url: http://arxiv.org/abs/2502.03292v1
- Date: Wed, 05 Feb 2025 15:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:19.359921
- Title: ALPET: Active Few-shot Learning for Citation Worthiness Detection in Low-Resource Wikipedia Languages
- Title(参考訳): ALPET:低リソースのウィキペディア言語における扇動誤り検出のためのアクティブFew-shot Learning
- Authors: Aida Halitaj, Arkaitz Zubiaga,
- Abstract要約: Citation Worthiness Detection (CWD) は、記事やコレクション内のどの文を引用と共にバックアップし、それが提供した情報を検証するかを決定する。
本研究では、ALPET(Active Learning)とPET(Pattern-Exploiting Training)を組み合わせたフレームワークを導入し、限られたデータリソースを持つ言語に対するCWDを強化する。
カタルーニャ、バスク、アルバニアのウィキペディアのデータセットに適用すると、ALPETは既存のCCWベースラインを上回り、ラベル付きデータの量を80%以上削減する。
- 参考スコア(独自算出の注目度): 7.242609314791262
- License:
- Abstract: Citation Worthiness Detection (CWD) consists in determining which sentences, within an article or collection, should be backed up with a citation to validate the information it provides. This study, introduces ALPET, a framework combining Active Learning (AL) and Pattern-Exploiting Training (PET), to enhance CWD for languages with limited data resources. Applied to Catalan, Basque, and Albanian Wikipedia datasets, ALPET outperforms the existing CCW baseline while reducing the amount of labeled data in some cases above 80\%. ALPET's performance plateaus after 300 labeled samples, showing it suitability for low-resource scenarios where large, labeled datasets are not common. While specific active learning query strategies, like those employing K-Means clustering, can offer advantages, their effectiveness is not universal and often yields marginal gains over random sampling, particularly with smaller datasets. This suggests that random sampling, despite its simplicity, remains a strong baseline for CWD in constraint resource environments. Overall, ALPET's ability to achieve high performance with fewer labeled samples makes it a promising tool for enhancing the verifiability of online content in low-resource language settings.
- Abstract(参考訳): Citation Worthiness Detection (CWD) は、記事やコレクション内のどの文を引用と共にバックアップし、それが提供した情報を検証するかを決定する。
本研究では,ALPET(Active Learning)とPET(Pattern-Exploiting Training)を組み合わせたフレームワークを導入し,限られたデータリソースを持つ言語に対するCWDを強化する。
カタルーニャ語、バスク語、アルバニア語ウィキペディアのデータセットに適用されるALPETは、既存のCCWベースラインよりも優れており、ラベル付きデータの量は80\%を超える場合もある。
ALPETのパフォーマンスプラトーは300のラベル付きサンプルの後で、大規模なラベル付きデータセットが一般的ではない低リソースシナリオに適していることを示している。
K-Meansクラスタリングを採用するような、特定のアクティブな学習クエリ戦略は、メリットを提供することができるが、その効果は普遍的ではなく、ランダムサンプリングよりも、特に小さなデータセットで、限界的なゲインを得ることが多い。
このことは、単純さにもかかわらず、ランダムサンプリングは制約資源環境におけるCWDの強力なベースラインであり続けていることを示唆している。
全体として、ALPETはラベル付きサンプルが少ないことで高いパフォーマンスを達成することができ、低リソースの言語設定におけるオンラインコンテンツの妥当性を高めるための有望なツールとなる。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models [23.522223369054437]
Self-Supervised Prompting (SSP) はゼロラベルのクロスリンガルトランスファー(0-CLT)の設定に適した新しいICLアプローチである。
SSP は、LLM がテキスト内例がターゲット言語からのものである場合、より正確なラベルを出力する、というキーオブザーバーに基づいている。
SSPは、0-CLTセットアップにおいて、既存のSOTAの微調整とプロンプトベースのベースラインを強く上回る。
論文 参考訳(メタデータ) (2024-06-27T04:21:59Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Active PETs: Active Data Annotation Prioritisation for Few-Shot Claim
Verification with Pattern Exploiting Training [21.842139093124512]
アクティブPET(Active PETs)は、アノテーションの候補として非ラベルのデータを積極的に選択する重み付きアプローチである。
データ選択にActive PETを使用すると、最先端のアクティブな学習方法よりも一貫した改善が見られた。
提案手法により,ラベル付きデータの少ないインスタンスを効果的に選択することが可能となる。
論文 参考訳(メタデータ) (2022-08-18T10:11:36Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。