論文の概要: Counterfactual LLM-based Framework for Measuring Rhetorical Style
- arxiv url: http://arxiv.org/abs/2512.19908v1
- Date: Mon, 22 Dec 2025 22:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.677262
- Title: Counterfactual LLM-based Framework for Measuring Rhetorical Style
- Title(参考訳): LLMを用いたレトリックスタイル計測フレームワーク
- Authors: Jingyi Qiu, Hong Chen, Zongyi Li,
- Abstract要約: 本稿では,機械学習論文の実体的内容から修辞的スタイルを遠ざけるための,反実的LLMベースのフレームワークを提案する。
2017年から2025年にかけてサンプリングされた8,485 ICLRへのこの手法の適用により、25万件以上の偽造書を生成する。
視線フレーミングは、ピアレビュー評価を制御した後でも、引用やメディアの注意を含む下流の注意を著しく予測する。
- 参考スコア(独自算出の注目度): 15.917819866091191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of AI has fueled growing concerns about ``hype'' in machine learning papers, yet a reliable way to quantify rhetorical style independently of substantive content has remained elusive. Because bold language can stem from either strong empirical results or mere rhetorical style, it is often difficult to distinguish between the two. To disentangle rhetorical style from substantive content, we introduce a counterfactual, LLM-based framework: multiple LLM rhetorical personas generate counterfactual writings from the same substantive content, an LLM judge compares them through pairwise evaluations, and the outcomes are aggregated using a Bradley--Terry model. Applying this method to 8,485 ICLR submissions sampled from 2017 to 2025, we generate more than 250,000 counterfactual writings and provide a large-scale quantification of rhetorical style in ML papers. We find that visionary framing significantly predicts downstream attention, including citations and media attention, even after controlling for peer-review evaluations. We also observe a sharp rise in rhetorical strength after 2023, and provide empirical evidence showing that this increase is largely driven by the adoption of LLM-based writing assistance. The reliability of our framework is validated by its robustness to the choice of personas and the high correlation between LLM judgments and human annotations. Our work demonstrates that LLMs can serve as instruments to measure and improve scientific evaluation.
- Abstract(参考訳): AIの台頭は、機械学習の論文における‘hype’に対する懸念の高まりに拍車をかけたが、現実的な内容とは無関係に修辞的なスタイルを定量化するための信頼できる方法は、いまだ解明されていない。
大胆な言語は、強い経験結果または単なる修辞的なスタイルに由来するため、両者を区別することはしばしば困難である。
複数のLLM修辞的ペルソナが同一の実体コンテンツから反現実的な文章を生成し、LLM判事がペアで評価し、Bradley-Terryモデルを用いて結果が集約される。
この手法を2017年から2025年までの8,485 ICLRのサンプルに適用し,25万以上の偽物文を生成し,ML論文における修辞スタイルの大規模定量化を行う。
視線フレーミングは、ピアレビュー評価を制御した後でも、引用やメディアの注意を含む下流の注意を著しく予測する。
また,2023年以降の修辞力の急激な上昇を観察し,この増加はLLMベースの筆記支援の導入によるものであることを示す実証的証拠を提供する。
本フレームワークの信頼性は,ペルソナの選択に対する頑健さとLLM判断と人間のアノテーションとの相関性が高いことによる検証である。
我々の研究は、LLMが科学的評価を計測し改善するための道具として機能できることを実証している。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.239220270988136]
我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。
フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。
LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文 参考訳(メタデータ) (2025-02-17T02:31:56Z) - Large Language Models Penetration in Scholarly Writing and Peer Review [43.600778691549706]
学術的な視点と次元にまたがる大規模言語モデルの浸透を評価する。
本実験は,学術的プロセスにおけるLLMの役割の増大を明らかにするために,textttLLMetricaの有効性を実証した。
これらの知見は、学術的信頼性を維持するために、LLMの使用における透明性、説明責任、倫理的実践の必要性を強調した。
論文 参考訳(メタデータ) (2025-02-16T16:37:34Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。