論文の概要: GerAV: Towards New Heights in German Authorship Verification using Fine-Tuned LLMs on a New Benchmark
- arxiv url: http://arxiv.org/abs/2601.13711v1
- Date: Tue, 20 Jan 2026 08:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.220322
- Title: GerAV: Towards New Heights in German Authorship Verification using Fine-Tuned LLMs on a New Benchmark
- Title(参考訳): GerAV: 新しいベンチマークによる微調整LDMを用いたドイツの権威証明における新たなハイツを目指して
- Authors: Lotta Kiefer, Christoph Leiter, Sotaro Takeshita, Elena Schmidt, Steffen Eger,
- Abstract要約: オーサシップ検証 (AV) とは、2つのテキストが同じ著者によって書かれたかどうかを決定するタスクである。
GerAVは600k以上のラベル付きテキストペアからなるドイツのAVの総合ベンチマークである。
- 参考スコア(独自算出の注目度): 20.533795195003286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship verification (AV) is the task of determining whether two texts were written by the same author and has been studied extensively, predominantly for English data. In contrast, large-scale benchmarks and systematic evaluations for other languages remain scarce. We address this gap by introducing GerAV, a comprehensive benchmark for German AV comprising over 600k labeled text pairs. GerAV is built from Twitter and Reddit data, with the Reddit part further divided into in-domain and cross-domain message-based subsets, as well as a profile-based subset. This design enables controlled analysis of the effects of data source, topical domain, and text length. Using the provided training splits, we conduct a systematic evaluation of strong baselines and state-of-the-art models and find that our best approach, a fine-tuned large language model, outperforms recent baselines by up to 0.09 absolute F1 score and surpasses GPT-5 in a zero-shot setting by 0.08. We further observe a trade-off between specialization and generalization: models trained on specific data types perform best under matching conditions but generalize less well across data regimes, a limitation that can be mitigated by combining training sources. Overall, GerAV provides a challenging and versatile benchmark for advancing research on German and cross-domain AV.
- Abstract(参考訳): 著者検証(AV)は、2つのテキストが同一の著者によって書かれたかどうかを判断するタスクであり、主に英語データのために広く研究されている。
対照的に、他の言語に対する大規模なベンチマークや体系的な評価は依然として不十分である。
我々は、600万以上のラベル付きテキストペアからなるドイツのAVのための総合ベンチマークであるGerAVを導入することで、このギャップに対処する。
GerAVはTwitterとRedditのデータから構築されており、Redditの部分は、さらにドメイン内およびドメイン間メッセージベースのサブセットと、プロファイルベースのサブセットに分割されている。
この設計により、データソース、トピック領域、テキスト長の影響を制御可能な分析が可能となる。
提案したトレーニングスプリットを用いて,強いベースラインと最先端モデルの体系的評価を行い,最新のベースラインを0.09絶対F1スコアで上回り,0.08ショット設定でGPT-5を上回った。
さらに、特殊化と一般化のトレードオフを観察する:特定のデータ型で訓練されたモデルは、マッチング条件下では最高に機能するが、トレーニングソースを組み合わせることで緩和できる制限であるデータレジーム間での一般化があまり良くない。
GerAVは、ドイツ語とクロスドメインAVの研究を進める上で、挑戦的で多用途なベンチマークを提供する。
関連論文リスト
- Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である
当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。
単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文 参考訳(メタデータ) (2026-01-07T13:58:29Z) - Technical Report on the Pangram AI-Generated Text Classifier [0.14732811715354457]
トランスフォーマーをベースとしたニューラルネットワークであるPangram Textについて紹介する。
パングラムテキストは英語以外の話者に偏りがなく、訓練中に見つからないドメインやモデルに一般化されていることを示す。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Rationale-Guided Few-Shot Classification to Detect Abusive Language [5.977278650516324]
乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。
2つの理性統合BERTアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセット上でシステムを評価する。
論文 参考訳(メタデータ) (2022-11-30T14:47:14Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。