論文の概要: A Comparative Study of LLM Prompting and Fine-Tuning for Cross-genre Authorship Attribution on Chinese Lyrics
- arxiv url: http://arxiv.org/abs/2511.21930v1
- Date: Wed, 26 Nov 2025 21:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.303846
- Title: A Comparative Study of LLM Prompting and Fine-Tuning for Cross-genre Authorship Attribution on Chinese Lyrics
- Title(参考訳): LLMプロンプトとファインチューニングの比較研究 : 中国語歌詞におけるクロスジェネリックオーサシップの寄与
- Authors: Yuxin Li, Lorraine Xu, Meng Fan Wang,
- Abstract要約: 複数のジャンルにまたがる中国語歌詞の新しいバランスの取れたデータセットを作成します。
ドメイン固有モデルを微調整し、その性能をゼロショット推論と比較する。
私たちの研究は、中国におけるクロスジェネリックな歌詞の属性に関する最初のベンチマークを確立します。
- 参考スコア(独自算出の注目度): 5.239714878026897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel study on authorship attribution for Chinese lyrics, a domain where clean, public datasets are sorely lacking. Our contributions are twofold: (1) we create a new, balanced dataset of Chinese lyrics spanning multiple genres, and (2) we develop and fine-tune a domain-specific model, comparing its performance against zero-shot inference using the DeepSeek LLM. We test two central hypotheses. First, we hypothesize that a fine-tuned model will outperform a zero-shot LLM baseline. Second, we hypothesize that performance is genre-dependent. Our experiments strongly confirm Hypothesis 2: structured genres (e.g. Folklore & Tradition) yield significantly higher attribution accuracy than more abstract genres (e.g. Love & Romance). Hypothesis 1 receives only partial support: fine-tuning improves robustness and generalization in Test1 (real-world data and difficult genres), but offers limited or ambiguous gains in Test2, a smaller, synthetically-augmented set. We show that the design limitations of Test2 (e.g., label imbalance, shallow lexical differences, and narrow genre sampling) can obscure the true effectiveness of fine-tuning. Our work establishes the first benchmark for cross-genre Chinese lyric attribution, highlights the importance of genre-sensitive evaluation, and provides a public dataset and analytical framework for future research. We conclude with recommendations: enlarge and diversify test sets, reduce reliance on token-level data augmentation, balance author representation across genres, and investigate domain-adaptive pretraining as a pathway for improved attribution performance.
- Abstract(参考訳): クリーンでパブリックなデータセットに欠ける領域である中国語歌詞の著者帰属に関する新しい研究を提案する。
我々は,1)複数のジャンルにまたがる中国語歌詞の新しいバランスの取れたデータセットを作成し,(2)ドメイン固有モデルの開発と微調整を行い,その性能をDeepSeek LLMを用いたゼロショット推論と比較した。
私たちは2つの中心仮説を試す。
まず、微調整モデルがゼロショットLCMベースラインを上回ると仮定する。
第二に、パフォーマンスはジャンルに依存している、という仮説を立てる。
我々の実験は仮説2を強く裏付ける: 構造化されたジャンル(eg Folklore & Tradition)は、より抽象的なジャンル(eg Love & Romance)よりもはるかに高い帰属精度をもたらす。
微調整はTest1(現実世界のデータと難解なジャンル)の堅牢性と一般化を改善するが、Test2では限定的または曖昧なゲインを提供する。
Test2の設計制限(ラベルの不均衡、浅い語彙差、狭いジャンルのサンプリングなど)は、微調整の真の有効性を曖昧にする可能性がある。
本研究は,中国におけるクロスジェネリックな歌詞の属性に関する最初のベンチマークを確立し,ジャンルに敏感な評価の重要性を強調し,今後の研究のための公開データセットと分析フレームワークを提供する。
テストセットの拡大と多様化、トークンレベルのデータ拡張への依存の低減、ジャンル間での著者表現のバランス、帰属性向上の道筋としてのドメイン適応型事前学習の検証などを行う。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Towards Accurate Translation via Semantically Appropriate Application of
Lexical Constraints [0.0]
我々は,LNMT研究の現在評価過程にある2つの重要かつ未研究の問題に焦点をあてる。
モデルは、トレーニング中に"ホモグラフ"や"見えない"といった難しい語彙制約に対処する必要があります。
PLUMCOTは、事前学習された言語モデルから、目に見えない語彙制約に関する情報を文脈的にリッチに統合する。
また、HOLLYは、モデルが「ホログラフィック」および「見えない」語彙制約に対処する能力を評価するための評価ベンチマークである。
論文 参考訳(メタデータ) (2023-06-21T08:08:15Z) - R$^2$F: A General Retrieval, Reading and Fusion Framework for
Document-level Natural Language Inference [29.520857954199904]
文書レベルの自然言語推論(DOCNLI)は、自然言語処理における新しい課題である。
我々は、Retrieval, Reading and Fusion (R2F)フレームワークと呼ばれる一般的なソリューションと、新しい設定を確立する。
実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多種多様なエビデンス検索手法に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-22T02:02:35Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。