論文の概要: Extracting Social Connections from Finnish Karelian Refugee Interviews Using LLMs
- arxiv url: http://arxiv.org/abs/2502.13566v1
- Date: Wed, 19 Feb 2025 09:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:17.820979
- Title: Extracting Social Connections from Finnish Karelian Refugee Interviews Using LLMs
- Title(参考訳): LLMを用いたフィンランド・カレリア難民インタビューからの社会的つながりの抽出
- Authors: Joonatan Laato, Jenna Kanerva, John Loehr, Virpi Lummaa, Filip Ginter,
- Abstract要約: フィンランド東部カレリアから戦後に移住した難民家族について,89,339件のフィンランド語インタビューの歴史的収集に関するゼロショット情報抽出研究を行った。
我々は,家族ごとに,インタビューの自由なテキストから,社会団体や趣味を抽出することを目的としている。
複数の生成モデルと教師付き学習アプローチを比較し、これらの異なるアプローチの相対的メリットについてより広範な知見を得る。
- 参考スコア(独自算出の注目度): 1.9421479501921588
- License:
- Abstract: We performed a zero-shot information extraction study on a historical collection of 89,339 brief Finnish-language interviews of refugee families relocated post-WWII from Finnish Eastern Karelia. Our research objective is two-fold. First, we aim to extract social organizations and hobbies from the free text of the interviews, separately for each family member. These can act as a proxy variable indicating the degree of social integration of refugees in their new environment. Second, we aim to evaluate several alternative ways to approach this task, comparing a number of generative models and a supervised learning approach, to gain a broader insight into the relative merits of these different approaches and their applicability in similar studies. We find that the best generative model (GPT-4) is roughly on par with human performance, at an F-score of 88.8%. Interestingly, the best open generative model (Llama-3-70B-Instruct) reaches almost the same performance, at 87.7% F-score, demonstrating that open models are becoming a viable alternative for some practical tasks even on non-English data. Additionally, we test a supervised learning alternative, where we fine-tune a Finnish BERT model (FinBERT) using GPT-4 generated training data. By this method, we achieved an F-score of 84.1% already with 6K interviews up to an F-score of 86.3% with 30k interviews. Such an approach would be particularly appealing in cases where the computational resources are limited, or there is a substantial mass of data to process.
- Abstract(参考訳): フィンランド東部カレリアから戦後に移住した難民家族を対象とした,89,339件のフィンランド語インタビューの歴史的収集に関するゼロショット情報抽出研究を行った。
私たちの研究目標は2倍です。
まず,家族ごとに個別に,インタビューの自由テキストから,社会団体や趣味を抽出することを目的とする。
これらは、難民の新たな環境における社会的統合の度合いを示すプロキシ変数として機能する。
第2に、これらの異なるアプローチの相対的メリットと、同様の研究におけるそれらの適用性について、より広範な知見を得るために、複数の生成モデルと教師付き学習アプローチを比較して、この課題に取り組むためのいくつかの代替方法を評価することを目的とする。
最も優れた生成モデル(GPT-4)は、人間のパフォーマンスとほぼ同等であり、Fスコアは88.8%である。
興味深いことに、最も優れたオープン生成モデル(Llama-3-70B-Instruct)は87.7%のFスコアでほぼ同じ性能に達し、オープンモデルが英語以外のデータでも実用的なタスクの代替となることを実証している。
さらに、GPT-4生成した学習データを用いてフィンランドのBERTモデル(FinBERT)を微調整する教師あり学習法をテストする。
この方法により、6Kインタビューで既に84.1%のFスコアを達成し、Fスコアで86.3%、30kインタビューで86.3%を得た。
このようなアプローチは、計算資源が限られている場合、あるいは処理すべき大量のデータがある場合、特に魅力的である。
関連論文リスト
- Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese [1.7457686843484872]
文脈型言語モデル(CLM)とニューラルネットワークの様々な組み合わせを用いて実験を行う。
CLMとニューラルネットワークのジョイントアプローチはシンプルだが,高品質な性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-20T15:46:48Z) - HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文 参考訳(メタデータ) (2024-04-02T14:43:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Improving Social Meaning Detection with Pragmatic Masking and Surrogate
Fine-Tuning [6.877263360331783]
Masked Language Model (MLM) は、たとえ有用であっても下流の微調整の目的とミスマッチしているとして、事前に訓練されている。
本研究では,社会的な意味のタスクに有用な,幅広い概念のセットに向けて,事前学習された表現を促進するための2つの戦略として,実践的なマスキングと微調整を提案する。
論文 参考訳(メタデータ) (2021-08-01T03:32:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - The Inception Team at NSURL-2019 Task 8: Semantic Question Similarity in
Arabic [0.76146285961466]
本稿では,アラビア語における意味的質問類似性の課題について述べる。
目的は、提供されたデータセットに対して、アラビア語で同様の意味論を検出できるモデルを構築することである。
論文 参考訳(メタデータ) (2020-04-24T19:52:40Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。