論文の概要: Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish
- arxiv url: http://arxiv.org/abs/2403.00411v2
- Date: Fri, 22 Mar 2024 15:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:51:11.381144
- Title: Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish
- Title(参考訳): 言語横断学習と低リソースファインチューニング--トルコ語 Fact-Checking を事例として
- Authors: Recep Firat Cekinel, Pinar Karagoz, Cagri Coltekin,
- Abstract要約: 実世界で3238件のクレームからなるFCTRデータセットを紹介した。
このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠が組み込まれている。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid spread of misinformation through social media platforms has raised concerns regarding its impact on public opinion. While misinformation is prevalent in other languages, the majority of research in this field has concentrated on the English language. Hence, there is a scarcity of datasets for other languages, including Turkish. To address this concern, we have introduced the FCTR dataset, consisting of 3238 real-world claims. This dataset spans multiple domains and incorporates evidence collected from three Turkish fact-checking organizations. Additionally, we aim to assess the effectiveness of cross-lingual transfer learning for low-resource languages, with a particular focus on Turkish. We demonstrate in-context learning (zero-shot and few-shot) performance of large language models in this context. The experimental results indicate that the dataset has the potential to advance research in the Turkish language.
- Abstract(参考訳): ソーシャルメディアプラットフォームを通じた誤報の急速な拡散は、世論への影響を懸念している。
誤報は他の言語で広く見られるが、この分野の研究の大部分は英語に集中している。
そのため、トルコ語を含む他の言語のためのデータセットが不足している。
この問題に対処するため,実世界の主張3238件からなるFCTRデータセットを導入した。
このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠が組み込まれている。
さらに,トルコ語を中心に,低リソース言語における言語間移動学習の有効性を評価することを目的とする。
この文脈において,大規模言語モデルの文脈内学習(ゼロショット,少数ショット)の性能を実証する。
実験の結果、このデータセットはトルコ語の研究を進展させる可能性が示唆された。
関連論文リスト
- A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models [0.0]
本研究は,小型・小型・小型・中規模のトルコのBERTモデルを紹介し,評価する。
我々は、複数の情報源から75GB以上のテキストを含む多様なデータセットでこれらのモデルをトレーニングし、マスク予測、感情分析、ニュース分類、ゼロショット分類など、様々なタスクでテストした。
論文 参考訳(メタデータ) (2023-07-26T12:02:30Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。