論文の概要: Looking for the Inner Music: Probing LLMs' Understanding of Literary Style
- arxiv url: http://arxiv.org/abs/2502.03647v1
- Date: Wed, 05 Feb 2025 22:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:59.777841
- Title: Looking for the Inner Music: Probing LLMs' Understanding of Literary Style
- Title(参考訳): インナー・ミュージックの探究 : LLMの文学的スタイル理解をめざして
- Authors: Rebecca M. M. Hicke, David Mimno,
- Abstract要約: 作者のスタイルはジャンルのスタイルよりも定義しやすい。
代名詞の用法と語順は、両方の文学的スタイルを定義する上で重要である。
- 参考スコア(独自算出の注目度): 3.5757761767474876
- License:
- Abstract: Recent work has demonstrated that language models can be trained to identify the author of much shorter literary passages than has been thought feasible for traditional stylometry. We replicate these results for authorship and extend them to a new dataset measuring novel genre. We find that LLMs are able to distinguish authorship and genre, but they do so in different ways. Some models seem to rely more on memorization, while others benefit more from training to learn author/genre characteristics. We then use three methods to probe one high-performing LLM for features that define style. These include direct syntactic ablations to input text as well as two methods that look at model internals. We find that authorial style is easier to define than genre-level style and is more impacted by minor syntactic decisions and contextual word usage. However, some traits like pronoun usage and word order prove significant for defining both kinds of literary style.
- Abstract(参考訳): 近年の研究では、従来のスタイロメトリーで実現可能と考えられていたよりもはるかに短い文節の著者を特定するために、言語モデルを訓練できることが示されている。
著者のためにこれらの結果を再現し、新しいジャンルを測る新しいデータセットに拡張する。
LLMは著者とジャンルを区別できるが、異なる方法で区別できる。
記憶に頼っているモデルもあれば、著者やジャンルの特徴を学ぶためのトレーニングの恩恵を受けるモデルもある。
次に、スタイルを定義するために、3つの手法を用いて、1つの高い性能のLCMを探索する。
これには、入力テキストに対する直接的な構文的短縮と、モデル内部を見る2つのメソッドが含まれる。
著者的スタイルはジャンルレベルのスタイルよりも定義が簡単であり,微妙な構文決定や文脈的単語使用の影響を受けやすいことがわかった。
しかし、代名詞の用法や語順などの特色は、両方の文体を定義する上で重要であることが証明されている。
関連論文リスト
- Do LLMs write like humans? Variation in grammatical and rhetorical styles [0.7852714805965528]
大規模言語モデル(LLM)の修辞形式について検討する。
ダグラス・ビーバーの語彙的・文法的・修辞的特徴セットを用いて, LLMと人間との系統的差異を同定した。
このことは、高度な能力にもかかわらず、LLMは人間のスタイルに合うのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-21T15:35:44Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding [24.355564722047244]
現在の大規模言語モデルは、微調整なしでいくつかの言語スタイルを捉えるのに苦労していることを示す。
我々は,LLMを代表語彙に基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-24T00:17:36Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Textual Stylistic Variation: Choices, Genres and Individuals [0.8057441774248633]
この章では、テキストコレクションのスタイリスティックな変動の統計処理のためのより情報的なターゲットメトリクスを論じている。
本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。
論文 参考訳(メタデータ) (2022-05-01T16:39:49Z) - From Theories on Styles to their Transfer in Text: Bridging the Gap with
a Hierarchical Survey [10.822011920177408]
スタイル転送は、既存のテキストを書き換え、望ましいスタイル特性を示すパラフレーズを作成することを目的としている。
少数の調査では、この分野の方法論的な概要が示されているが、研究者が特定のスタイルにフォーカスするのを支援していない。
それらを階層に整理し、それぞれの定義の課題を強調し、現在の研究状況のギャップを指摘します。
論文 参考訳(メタデータ) (2021-10-29T15:53:06Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。