論文の概要: GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification
- arxiv url: http://arxiv.org/abs/2603.10007v1
- Date: Tue, 17 Feb 2026 16:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.558784
- Title: GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification
- Title(参考訳): GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification (英語)
- Authors: Ahmed Khaled Khamis,
- Abstract要約: バイナリ分類のための多言語E5大エンコーダを微調整した。
トークン表現をプールするためのいくつかのプール戦略について検討した。
いずれも単純な平均プーリングに優れておらず、テストセットでのF1は0.75であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our approach to the AbjadGenEval shared task on detecting AI-generated Arabic text. We fine-tuned the multilingual E5-large encoder for binary classification, and we explored several pooling strategies to pool token representations, including weighted layer pooling, multi-head attention pooling, and gated fusion. Interestingly, none of these outperformed simple mean pooling, which achieved an F1 of 0.75 on the test set. We believe this is because complex pooling methods introduce additional parameters that need more data to train properly, whereas mean pooling offers a stable baseline that generalizes well even with limited examples. We also observe a clear pattern in the data: human-written texts tend to be significantly longer than machine-generated ones.
- Abstract(参考訳): 本稿では,AI生成アラビア文字の検出におけるAbjadGenEval共有タスクへのアプローチを提案する。
バイナリ分類のための多言語E5大エンコーダを微調整し、重み付け層プーリング、マルチヘッドアテンションプーリング、ゲート融合など、トークン表現をプールするためのプーリング戦略について検討した。
興味深いことに、これらのいずれも単純な平均プールよりも優れており、テストセットでのF1は0.75であった。
これは、複雑なプーリング手法が、適切なトレーニングを行うためにより多くのデータを必要とする追加のパラメータを導入するのに対して、平均プーリングは、限られた例でもうまく一般化できる安定したベースラインを提供するからである。
人間の書き起こしテキストは、機械生成テキストよりもかなり長くなる傾向がある。
関連論文リスト
- Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora [1.7590081165362783]
我々は、新しいアラビアマルチモーダルデータセットを作成するためにCommon Crawlデータセットを処理するパイプラインWasmを提示する。
テキスト抽出のみに焦点を当てた既存のアラビア語コーパスとは異なり、我々のアプローチはウェブコンテンツの構造的整合性を保っている。
既存の主要なデータセットに対して、データ処理パイプラインの包括的な比較分析を提供します。
論文 参考訳(メタデータ) (2025-11-10T13:10:31Z) - BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection [0.5735035463793009]
AraELECTRA, CAMeLBERT, XLM-RoBERTaの3種類の事前学習変圧器モデルの有効性を検討した。
提案手法では,バイナリ分類タスクのデータセットに対して,各モデルを微調整する。
マルチリンガルのXLM-RoBERTaモデルはF1スコア0.7701で最高性能を達成し、専門のアラビアモデルを上回った。
論文 参考訳(メタデータ) (2025-10-23T14:41:04Z) - LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。
提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。
本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文 参考訳(メタデータ) (2025-01-21T06:32:32Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Simple, Strong and Robust Baseline for Distantly Supervised Relation
Extraction [19.146415895872956]
私たちはPassage-Attと呼ばれる新しいアグリゲーションスキームを思いついた。
このアグリゲーションスキームでは、エンティティペアに言及するすべてのインスタンスを"インスタンスのパス"にまとめます。
これらの要約は、潜在的な三重項の妥当性を予測するために使われる。
BERTをパスエンコーダとして使用したPassage-Attは,3つの異なる設定で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-14T14:45:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。