論文の概要: Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with
Fact-Checking in Turkish
- arxiv url: http://arxiv.org/abs/2403.00411v1
- Date: Fri, 1 Mar 2024 09:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:49:13.320571
- Title: Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with
Fact-Checking in Turkish
- Title(参考訳): 言語横断学習と低リソースファインチューニング--トルコ語 Fact-Checking を事例として
- Authors: Recep Firat Cekinel, Pinar Karagoz, Cagri Coltekin
- Abstract要約: 実世界で3238件のクレームからなるFCTRデータセットを紹介した。
このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠が組み込まれている。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid spread of misinformation through social media platforms has raised
concerns regarding its impact on public opinion. While misinformation is
prevalent in other languages, the majority of research in this field has
concentrated on the English language. Hence, there is a scarcity of datasets
for other languages, including Turkish. To address this concern, we have
introduced the FCTR dataset, consisting of 3238 real-world claims. This dataset
spans multiple domains and incorporates evidence collected from three Turkish
fact-checking organizations. Additionally, we aim to assess the effectiveness
of cross-lingual transfer learning for low-resource languages, with a
particular focus on Turkish. We demonstrate in-context learning (zero-shot and
few-shot) performance of large language models in this context. The
experimental results indicate that the dataset has the potential to advance
research in the Turkish language.
- Abstract(参考訳): ソーシャルメディアプラットフォームを通じた誤報の急速な拡散は、世論への影響を懸念している。
誤報は他の言語で広く見られるが、この分野の研究の大部分は英語に集中している。
そのため、トルコ語を含む他の言語向けのデータセットが不足している。
この問題に対処するため,実世界3238件からなるFCTRデータセットを導入した。
このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠を含んでいる。
さらに,低リソース言語における言語間トランスファー学習の有効性を評価し,特にトルコ語に焦点をあてた。
この文脈では、大規模言語モデルの文脈内学習(ゼロショットと少数ショット)のパフォーマンスを示す。
実験結果は、このデータセットがトルコ語の研究を前進させる可能性を示唆している。
関連論文リスト
- Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。
本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。
GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文 参考訳(メタデータ) (2024-11-18T05:41:27Z) - A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models [0.0]
本研究は,小型・小型・小型・中規模のトルコのBERTモデルを紹介し,評価する。
我々は、複数の情報源から75GB以上のテキストを含む多様なデータセットでこれらのモデルをトレーニングし、マスク予測、感情分析、ニュース分類、ゼロショット分類など、様々なタスクでテストした。
論文 参考訳(メタデータ) (2023-07-26T12:02:30Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。