論文の概要: Benchmark of stylistic variation in LLM-generated texts
- arxiv url: http://arxiv.org/abs/2509.10179v1
- Date: Fri, 12 Sep 2025 12:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.077471
- Title: Benchmark of stylistic variation in LLM-generated texts
- Title(参考訳): LLMテキストのスタイリスティックな変化のベンチマーク
- Authors: Jiří Milička, Anna Marklová, Václav Cvrček,
- Abstract要約: 本研究では,人間によって書かれたテキストと,大規模言語モデル(LLM)によって作成された同等のテキストのレジスタ変動について検討する。
同様の分析は、AI-Koditexコーパスとチェコの多次元モデルを用いてチェコで複製される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the register variation in texts written by humans and comparable texts produced by large language models (LLMs). Biber's multidimensional analysis (MDA) is applied to a sample of human-written texts and AI-created texts generated to be their counterparts to find the dimensions of variation in which LLMs differ most significantly and most systematically from humans. As textual material, a new LLM-generated corpus AI-Brown is used, which is comparable to BE-21 (a Brown family corpus representing contemporary British English). Since all languages except English are underrepresented in the training data of frontier LLMs, similar analysis is replicated on Czech using AI-Koditex corpus and Czech multidimensional model. Examined were 16 frontier models in various settings and prompts, with emphasis placed on the difference between base models and instruction-tuned models. Based on this, a benchmark is created through which models can be compared with each other and ranked in interpretable dimensions.
- Abstract(参考訳): 本研究では,人間によって書かれたテキストと,大規模言語モデル(LLM)によって作成された同等のテキストのレジスタ変動について検討する。
ビーバーの多次元解析(MDA)は、人間の書いたテキストとAIが作成したテキストのサンプルに適用され、LLMが人間と最も大きく、最も体系的に異なる変動の次元を見つける。
テキスト素材として、新しいLLM生成コーパスAI-Brownが使用され、これはBE-21(現在のイギリス英語を表すブラウン家コーパス)に匹敵する。
英語以外の全ての言語はフロンティアのLLMのトレーニングデータに不足しているため、同様の分析はAI-Koditex corpusとチェコの多次元モデルを用いてチェコで複製される。
様々な設定とプロンプトで16のフロンティアモデルが採用され、ベースモデルと命令調整モデルの違いに重点が置かれた。
これに基づいて、モデルを相互に比較し、解釈可能な次元でランク付け可能なベンチマークが作成される。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.0]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。
統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。
人間と機械の両方のテキストは、ドメイン間のスタイリスティックな多様性を示しており、人間は我々の特徴により大きなバリエーションを示している。
論文 参考訳(メタデータ) (2025-07-18T02:46:55Z) - Examining the Robustness of Large Language Models across Language Complexity [19.184633713069353]
大規模言語モデル(LLM)は、学生が学習を理解し評価するために生成したテキスト成果物を分析する。
本研究では,数学の問題解決において,学生の自己制御学習(SRL)を検出するLLMベースの学生モデルのロバスト性について検討した。
論文 参考訳(メタデータ) (2025-01-30T20:33:59Z) - Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models [0.0]
人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
論文 参考訳(メタデータ) (2024-12-04T04:38:35Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。