Fugu-MT 論文翻訳(概要): KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection

論文の概要: KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection

arxiv url: http://arxiv.org/abs/2402.13671v1
Date: Wed, 21 Feb 2024 10:09:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 15:54:00.524839
Title: KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection
Title（参考訳）: semeval-2024タスク8 : 多言語機械生成テキスト検出のための微調整llm
Authors: Michal Spiegel and Dominik Macko
Abstract要約: SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: SemEval-2024 Task 8 is focused on multigenerator, multidomain, and multilingual black-box machine-generated text detection. Such a detection is important for preventing a potential misuse of large language models (LLMs), the newest of which are very capable in generating multilingual human-like texts. We have coped with this task in multiple ways, utilizing language identification and parameter-efficient fine-tuning of smaller LLMs for text classification. We have further used the per-language classification-threshold calibration to uniquely combine fine-tuned models predictions with statistical detection metrics to improve generalization of the system detection performance. Our submitted method achieved competitive results, ranking at the fourth place, just under 1 percentage point behind the winner.
Abstract（参考訳）: SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。このような検出は、言語モデル(LLM)の潜在的な誤用を防ぐために重要である。我々は,テキスト分類において,言語識別とより小さなLLMのパラメータ効率の微調整を利用して,この課題に対処してきた。さらに、言語ごとの分類閾値校正を用いて、微調整モデル予測と統計的検出指標を一意に組み合わせ、システム検出性能の一般化を図る。提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。

関連論文リスト

When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。 X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文参考訳（メタデータ） (2025-07-28T10:49:04Z)
mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [0.0]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。これは、Voight-Kampff Generative AI Detection 2025の両方のサブタスクに適用される。
論文参考訳（メタデータ） (2025-06-02T14:07:32Z)
Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text [2.2039952888743253]
MGTは自然言語処理において重要な研究領域となっている。本研究では,強力なニューラルアーキテクチャであるRoBERTaベーストランスを微調整し,MGT検出に対処する効果について検討する。提案システムでは,テストデータセットの78.9%の精度を達成し,参加者の57位に位置づけた。
論文参考訳（メタデータ） (2024-07-16T14:33:01Z)
PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文参考訳（メタデータ） (2024-04-08T13:05:02Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。 11の言語で74,081の認証テキストと機械生成テキストで構成されている。ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文参考訳（メタデータ） (2023-10-20T15:57:17Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文参考訳（メタデータ） (2023-05-24T08:55:11Z)
Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-23T16:56:10Z)
Enhancing Pashto Text Classification using Language Processing Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。平均テスト精度は94%だった。 DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文参考訳（メタデータ） (2023-05-04T23:11:31Z)
UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language [0.0]
PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
論文参考訳（メタデータ） (2022-04-18T13:22:10Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。