論文の概要: KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2402.13671v1
- Date: Wed, 21 Feb 2024 10:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:54:00.524839
- Title: KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection
- Title(参考訳): semeval-2024タスク8 : 多言語機械生成テキスト検出のための微調整llm
- Authors: Michal Spiegel and Dominik Macko
- Abstract要約: SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SemEval-2024 Task 8 is focused on multigenerator, multidomain, and
multilingual black-box machine-generated text detection. Such a detection is
important for preventing a potential misuse of large language models (LLMs),
the newest of which are very capable in generating multilingual human-like
texts. We have coped with this task in multiple ways, utilizing language
identification and parameter-efficient fine-tuning of smaller LLMs for text
classification. We have further used the per-language classification-threshold
calibration to uniquely combine fine-tuned models predictions with statistical
detection metrics to improve generalization of the system detection
performance. Our submitted method achieved competitive results, ranking at the
fourth place, just under 1 percentage point behind the winner.
- Abstract(参考訳): SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
このような検出は、言語モデル(LLM)の潜在的な誤用を防ぐために重要である。
我々は,テキスト分類において,言語識別とより小さなLLMのパラメータ効率の微調整を利用して,この課題に対処してきた。
さらに、言語ごとの分類閾値校正を用いて、微調整モデル予測と統計的検出指標を一意に組み合わせ、システム検出性能の一般化を図る。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
関連論文リスト
- M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text
Detection [70.96684450854274]
大規模言語モデル(LLM)は、機械生成テキスト(MGT)に前例のない急上昇をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
これらの内容と本物の人間生成テキストを識別し区別する必要性は、偽情報との戦いにおいて重要である。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - KInITVeraAI at SemEval-2023 Task 3: Simple yet Powerful Multilingual
Fine-Tuning for Persuasion Techniques Detection [0.0]
本稿では,サブタスク3のSemEval 2023タスク3に対して,説得技術検出専用の最高のパフォーマンスソリューションを提案する。
入力データの多言語的特性が高く,23の予測ラベルが多数存在するため,学習前のトランスフォーマベース言語モデルに微調整を施した。
論文 参考訳(メタデータ) (2023-04-24T09:06:43Z) - UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles
for Detecting Patronizing and Condescending Language [0.0]
PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。
本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
論文 参考訳(メタデータ) (2022-04-18T13:22:10Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。