論文の概要: CLEAR: A Comprehensive Linguistic Evaluation of Argument Rewriting by Large Language Models
- arxiv url: http://arxiv.org/abs/2509.15027v1
- Date: Thu, 18 Sep 2025 14:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.275738
- Title: CLEAR: A Comprehensive Linguistic Evaluation of Argument Rewriting by Large Language Models
- Title(参考訳): CLEAR:大規模言語モデルによる代名詞書き換えの言語学的総合評価
- Authors: Thomas Huber, Christina Niklaus,
- Abstract要約: 我々は、議論的テキストとその改善、Argument Improvement(ArgImp)というタスクに焦点を当てる。
本稿では4つの言語レベルにマッピングされた57のメトリクスからなる評価パイプラインであるCLEARについて述べる。
これらのモデルでは,文章の短縮と平均語長の増大,文章の融合によりArgImpが実現されている。
- 参考スコア(独自算出の注目度): 2.872898284494118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LLMs have been extensively studied on general text generation tasks, there is less research on text rewriting, a task related to general text generation, and particularly on the behavior of models on this task. In this paper we analyze what changes LLMs make in a text rewriting setting. We focus specifically on argumentative texts and their improvement, a task named Argument Improvement (ArgImp). We present CLEAR: an evaluation pipeline consisting of 57 metrics mapped to four linguistic levels: lexical, syntactic, semantic and pragmatic. This pipeline is used to examine the qualities of LLM-rewritten arguments on a broad set of argumentation corpora and compare the behavior of different LLMs on this task and analyze the behavior of different LLMs on this task in terms of linguistic levels. By taking all four linguistic levels into consideration, we find that the models perform ArgImp by shortening the texts while simultaneously increasing average word length and merging sentences. Overall we note an increase in the persuasion and coherence dimensions.
- Abstract(参考訳): LLMは、一般的なテキスト生成タスクにおいて広く研究されているが、テキスト書き換え、一般的なテキスト生成に関連するタスク、特にこのタスクにおけるモデルの振る舞いについての研究は少ない。
本稿では,テキストの書き直し設定においてLLMがどのような変化をもたらすかを分析する。
我々は、特に議論的テキストとその改善、Argument Improvement (ArgImp) と呼ばれるタスクに焦点を当てる。
本稿では, 語彙, 構文, 意味, 実践の4つのレベルにマッピングされた57の指標からなる評価パイプライン CLEAR を提案する。
このパイプラインは、幅広い議論コーパス上のLLM書き換え議論の質を調べ、このタスク上の異なるLLMの挙動を比較し、言語レベルの観点から異なるLLMの挙動を分析するために使用される。
これら4つの言語レベルをすべて考慮し,文章を短縮し,平均語長と融合文を同時に増加させることでArgImpを実現する。
全体として、説得力とコヒーレンス次元の増大に留意する。
関連論文リスト
- QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。