論文の概要: How Human-Like Are Large Language Models? A Register-Aware Linguistic Evaluation Framework
- arxiv url: http://arxiv.org/abs/2605.23651v2
- Date: Tue, 26 May 2026 06:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.977967
- Title: How Human-Like Are Large Language Models? A Register-Aware Linguistic Evaluation Framework
- Title(参考訳): 大規模言語モデルと人間的類似性 : 登録言語評価フレームワーク
- Authors: Björn Nieth, Marianna Gracheva, Michaela Mahlberg, Bjoern Eskofier, Emmanuelle Salin,
- Abstract要約: 本研究では,人間的類似性を評価する文脈認識評価フレームワークを提案する。
我々は,最大平均離散性(MMD)と,Biberが導入した67の語彙文法的特徴を用いて,この枠組みを実装した。
- 参考スコア(独自算出の注目度): 0.47954782871066737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While factual correctness and task-performance have been in focus of Large Language Model (LLM) research for a long time, the fundamental question of how human-like generated texts are on a linguistic level has been underexplored. From a corpus-linguistic perspective, language production is inherently context-dependent, with distinct communicative contexts giving rise to differences in frequencies and co-occurrence patterns of linguistic features. A text failing to adhere to these patterns can be content-wise correct, but still be unfavorable to human readers. In this work, we propose a context-aware evaluation framework in which human-likeness is assessed using a two-sample problem between the linguistic feature distribution of a human reference corpus for a given register and a corresponding LLM-generated corpus. We implement this framework using the Maximum Mean Discrepancy (MMD) and the 67 lexico-grammatical features introduced by Biber, which are commonly applied in corpus linguistics. In our experiments, we compare seven instruction-tuned, open-source models across five English-language datasets spanning distinct registers against a human baseline. While across all tested setups, LLMs deviate from the human baseline, which models are closest to human language depends on the register and is not dictated by model size.
- Abstract(参考訳): 事実的正しさとタスクパフォーマンスは,Large Language Model (LLM) 研究に長い間注目されてきたが,人間のような生成テキストが言語レベルでどのように存在するかという根本的な疑問が過小評価されている。
コーパス言語の観点からは、言語生産は本質的に文脈依存であり、異なるコミュニケーションの文脈は、言語の特徴の周波数と共起パターンの違いを引き起こす。
これらのパターンに従わないテキストは内容的に正しいが、それでも人間の読者には好ましくない。
本研究では,人間の参照コーパスの言語的特徴分布とそれに対応するLCM生成コーパスとの間にある2サンプル問題を用いて,人間の類似性を評価する文脈認識評価フレームワークを提案する。
本稿では,最大平均離散性(MMD)とバイバーが導入した67の語彙文法的特徴を用いて,この枠組みを実装した。
実験では、人間のベースラインに対して異なるレジスタにまたがる5つの英語データセットに対して、命令調整されたオープンソースモデル7つを比較した。
テストされたすべてのセットアップにおいて、LLMは人間のベースラインから逸脱し、モデルが人間の言語に最も近いモデルはレジスタに依存し、モデルサイズによって規定されない。
関連論文リスト
- Benchmarking Concept-Spilling Across Languages in LLMs [7.577675422356702]
大規模言語モデル(LLM)は言語間の優れた能力を示すが、他の言語からの表現に対する体系的なバイアスを示すことが多い。
本稿では,言語間の多文語をモデルがどう扱うかを測定することで,多言語意味的ロバスト性を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T19:28:26Z) - Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。
実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。
以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-24T09:02:28Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。