論文の概要: StylOch at PAN: Gradient-Boosted Trees with Frequency-Based Stylometric Features
- arxiv url: http://arxiv.org/abs/2507.12064v1
- Date: Wed, 16 Jul 2025 09:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.328209
- Title: StylOch at PAN: Gradient-Boosted Trees with Frequency-Based Stylometric Features
- Title(参考訳): PANにおけるStylOch:周波数に基づくスティロメトリー特徴を有する勾配発芽木
- Authors: Jeremi K. Ochab, Mateusz Matias, Tymoteusz Boba, Tomasz Walkowiak,
- Abstract要約: このバイナリAI検出タスクへの提出は、モジュラースタイルのパイプラインに基づいている。
我々は、分類器の訓練のために、50万以上の機械生成テキストの大規模なコーパスを収集する。
提案手法は,非神経的,計算コストが低く,説明可能なアプローチに従う。
- 参考スコア(独自算出の注目度): 0.1499944454332829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This submission to the binary AI detection task is based on a modular stylometric pipeline, where: public spaCy models are used for text preprocessing (including tokenisation, named entity recognition, dependency parsing, part-of-speech tagging, and morphology annotation) and extracting several thousand features (frequencies of n-grams of the above linguistic annotations); light-gradient boosting machines are used as the classifier. We collect a large corpus of more than 500 000 machine-generated texts for the classifier's training. We explore several parameter options to increase the classifier's capacity and take advantage of that training set. Our approach follows the non-neural, computationally inexpensive but explainable approach found effective previously.
- Abstract(参考訳): このバイナリAI検出タスクへの提出は、モジュラースタイルのパイプラインに基づいており、以下のとおりである: パブリックスパCyモデルはテキスト前処理(トークン化、エンティティ認識、依存性解析、音声タグ付け、形態アノテーションを含む)と数千の特徴(上記の言語アノテーションのn-gramの頻度)を抽出する。
我々は、分類器の訓練のために、50万以上の機械生成テキストの大規模なコーパスを収集する。
分類器のキャパシティを高め、そのトレーニングセットを活用するために、いくつかのパラメータオプションについて検討する。
提案手法は,非神経的,計算コストが低く,説明可能なアプローチに従う。
関連論文リスト
- Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models [0.0]
CCAS(Contrastive Class Alignment Score)と呼ばれる新しいメトリクスを用いた自動即時改善手法を提案する。
提案手法は,大規模言語モデルを用いて多様なプロンプト候補を生成し,文変換器からのプロンプト埋め込みを用いてCCASを用いてフィルタする。
本研究では,高精度の自動選択により,モデルトレーニングやラベル付きデータを必要とせずに,物体検出精度が向上することを示す。
論文 参考訳(メタデータ) (2025-05-14T04:43:36Z) - Evolutionary Verbalizer Search for Prompt-based Few Shot Text
Classification [5.583948835737293]
提案手法は,提案手法を改良した新しい進化型動詞処理アルゴリズムであるEVSを提案する。
本稿では,最適な動詞処理器を自動構築することに集中し,高速な動詞処理器を用いたプロンプトベースチューニングを改善するための新しいEVSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-18T10:03:11Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - A pipeline and comparative study of 12 machine learning models for text
classification [0.0]
テキストベースのコミュニケーションは、特にビジネス環境では、コミュニケーション方法として非常に好まれる。
テキスト分類のための多くの機械学習手法が提案され、ほとんどのメールプロバイダのサービスに組み込まれている。
しかし、テキスト分類アルゴリズムを最適化し、攻撃性に関する適切なトレードオフを見つけることは、依然として大きな研究課題である。
論文 参考訳(メタデータ) (2022-04-04T23:51:22Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。