論文の概要: Team "better_call_claude": Style Change Detection using a Sequential Sentence Pair Classifier
- arxiv url: http://arxiv.org/abs/2508.00675v1
- Date: Fri, 01 Aug 2025 14:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.918393
- Title: Team "better_call_claude": Style Change Detection using a Sequential Sentence Pair Classifier
- Title(参考訳): Team "better_call_claude":逐次文ペア分類器を用いたスタイル変更検出
- Authors: Gleb Schmidt, Johannes Römisch, Mariia Halchynska, Svetlana Gorovaia, Ivan P. Yamshchikov,
- Abstract要約: PAN 2025では、共有タスクは参加者に対して、最もきめ細かいレベルでスタイルを検出するよう呼びかけている。
本稿では,Sentence Pair Pair (SSPC)アーキテクチャを用いて各インスタンスの内容をモデル化し,この問題に対処することを提案する。
EASY媒体でそれぞれ0.92328、0.724、HARDデータで強いマクロスコアを得る。
- 参考スコア(独自算出の注目度): 5.720553544629197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style change detection - identifying the points in a document where writing style shifts - remains one of the most important and challenging problems in computational authorship analysis. At PAN 2025, the shared task challenges participants to detect style switches at the most fine-grained level: individual sentences. The task spans three datasets, each designed with controlled and increasing thematic variety within documents. We propose to address this problem by modeling the content of each problem instance - that is, a series of sentences - as a whole, using a Sequential Sentence Pair Classifier (SSPC). The architecture leverages a pre-trained language model (PLM) to obtain representations of individual sentences, which are then fed into a bidirectional LSTM (BiLSTM) to contextualize them within the document. The BiLSTM-produced vectors of adjacent sentences are concatenated and passed to a multi-layer perceptron for prediction per adjacency. Building on the work of previous PAN participants classical text segmentation, the approach is relatively conservative and lightweight. Nevertheless, it proves effective in leveraging contextual information and addressing what is arguably the most challenging aspect of this year's shared task: the notorious problem of "stylistically shallow", short sentences that are prevalent in the proposed benchmark data. Evaluated on the official PAN-2025 test datasets, the model achieves strong macro-F1 scores of 0.923, 0.828, and 0.724 on the EASY, MEDIUM, and HARD data, respectively, outperforming not only the official random baselines but also a much more challenging one: claude-3.7-sonnet's zero-shot performance.
- Abstract(参考訳): スタイル変更検出 – 書式がシフトする文書内のポイントを特定する – は、計算オーサシップ分析において、最も重要かつ困難な問題のひとつだ。
PAN 2025では、共有タスクは参加者に対して、最もきめ細かいレベルでスタイルスイッチを検出するよう呼びかけている。
このタスクは3つのデータセットにまたがる。
本稿では,各問題インスタンス,すなわち一連の文の内容をSSPC(Sequential Sentence Pair Classifier)を用いてモデル化することで,この問題に対処することを提案する。
このアーキテクチャは、事前訓練された言語モデル(PLM)を利用して個々の文の表現を取得し、双方向LSTM(BiLSTM)に入力して文書内でそれらを文脈化する。
隣接文のBiLSTM生成ベクトルは連結され、隣接度当たりの予測のために多層パーセプトロンに渡される。
従来のPAN参加者による古典的なテキストセグメンテーションの作業に基づいて、このアプローチは比較的保守的で軽量である。
それでも、これはコンテキスト情報を活用し、今年の共有タスクの最も難しい側面に対処する上で有効であることが証明されている: 提案されたベンチマークデータでよく見られる「スタイリスティックに浅い」短い文の悪名高い問題である。
公式のPAN-2025テストデータセットに基づいて評価され、EASY、メディア、HARDデータにおいて、それぞれ0.923、0.828、0.724の強力なマクロF1スコアを達成し、公式なランダムベースラインだけでなく、より難しいものであるclaude-3.7-sonnetのゼロショットのパフォーマンスも上回っている。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - PMB5: Gaining More Insight into Neural Semantic Parsing with Challenging Benchmarks [9.31054333943453]
並列平均銀行における意味解析と意味テキスト生成のためのニューラルモデルの評価を行った。
まず、事前のランダム分割の代わりに、標準的なテストデータの信頼性を向上させるために、より体系的な分割手法を提案する。
第二に、標準的なテストセットを除いて、談話構造を含む長いテキストを持つものと、構成的一般化に対処するものという2つの課題セットを提案する。
論文 参考訳(メタデータ) (2024-04-12T09:48:58Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。