論文の概要: Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages
- arxiv url: http://arxiv.org/abs/2508.06435v1
- Date: Fri, 08 Aug 2025 16:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.302724
- Title: Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages
- Title(参考訳): 言語ではなくトピックを学ぶ: LLMはいかにして、言語横断のオンライン移民論を分類するか
- Authors: Andrea Nasuto, Stefano Maria Iacus, Francisco Rowe, Devika Jain,
- Abstract要約: 大規模言語モデル(LLM)は、スケーラブルで正確な分析を可能にすることによって、社会科学の研究を変革している。
我々は、移民関連ツイートを分類するために、モノリンガル、バイリンガル、マルチリンガルデータセット上の軽量LLaMA 3.2-3Bモデルを微調整する。
最小限の言語固有の微調整が言語間話題の検出を可能にするか、ターゲット言語を追加することで事前学習バイアスが修正されるかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are transforming social-science research by enabling scalable, precise analysis. Their adaptability raises the question of whether knowledge acquired through fine-tuning in a few languages can transfer to unseen languages that only appeared during pre-training. To examine this, we fine-tune lightweight LLaMA 3.2-3B models on monolingual, bilingual, or multilingual data sets to classify immigration-related tweets from X/Twitter across 13 languages, a domain characterised by polarised, culturally specific discourse. We evaluate whether minimal language-specific fine-tuning enables cross-lingual topic detection and whether adding targeted languages corrects pre-training biases. Results show that LLMs fine-tuned in one or two languages can reliably classify immigration-related content in unseen languages. However, identifying whether a tweet expresses a pro- or anti-immigration stance benefits from multilingual fine-tuning. Pre-training bias favours dominant languages, but even minimal exposure to under-represented languages during fine-tuning (as little as $9.62\times10^{-11}$ of the original pre-training token volume) yields significant gains. These findings challenge the assumption that cross-lingual mastery requires extensive multilingual training: limited language coverage suffices for topic-level generalisation, and structural biases can be corrected with lightweight interventions. By releasing 4-bit-quantised, LoRA fine-tuned models, we provide an open-source, reproducible alternative to proprietary LLMs that delivers 35 times faster inference at just 0.00000989% of the dollar cost of the OpenAI GPT-4o model, enabling scalable, inclusive research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スケーラブルで正確な分析を可能にすることによって、社会科学の研究を変革している。
これらの適応性は、いくつかの言語で微調整によって得られた知識が、事前学習中にのみ現れる見知らぬ言語に移行できるかどうかという問題を提起する。
そこで我々は,13言語にわたるX/Twitterからの移民関連ツイートを分類するために,モノリンガル,バイリンガル,マルチリンガルのデータセットを用いた軽量LLaMA 3.2-3Bモデルを微調整した。
最小限の言語固有の微調整が言語間話題の検出を可能にするか、ターゲット言語を追加することで事前学習バイアスが修正されるかを評価する。
その結果,LLMを1つか2つの言語で微調整することで,移民関連コンテンツを不明瞭な言語で確実に分類できることが示唆された。
しかし、ツイートがアンチ移民の姿勢を表すかどうかを特定することは、多言語微調整の恩恵を受ける。
事前学習バイアスは支配的な言語を好むが、微調整中(9.62\times10^{-11}$)にあまり表現されていない言語への露出は最小限に抑えられる。
これらの知見は、言語間の熟達には広範囲にわたる多言語訓練が必要であるという仮定に疑問を投げかけ、言語カバレッジの制限はトピックレベルの一般化に十分であり、構造バイアスは軽量な介入によって修正できる。
4ビット量子化されたLoRAファインチューニングモデルをリリースすることにより、オープンAI GPT-4oモデルのコストのわずか0.00000989%で35倍高速な推論を提供する、プロプライエタリなLLMに代わる、オープンソースで再現可能な代替品を提供し、スケーラブルで包括的な研究を可能にします。
関連論文リスト
- ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality [45.16490310398125]
我々は,これまでで最大規模の多言語スケーリング法を施行し,合計774の多言語学習実験を行った。
単言語および多言語事前学習のための適応移動スケーリング法(ATLAS)を導入する。
分析では、多言語学習のダイナミクス、言語間の伝達特性、多言語性の呪いについて光を当てた。
論文 参考訳(メタデータ) (2025-10-24T21:45:22Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs [21.49482900744541]
ICLと微調整の3つの言語間移動法について検討した。
LLMにおける支配的な言語を介して、追加の監視信号を追加することで、改善がもたらされることが分かりました。
ターゲット言語を単語の並べ替えに適応させることは、ICLでは有益であるが、その影響は微調整によって減少する。
論文 参考訳(メタデータ) (2024-06-25T08:53:46Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。