論文の概要: AI evaluation may bias perceptions: The importance of context in interpreting academic writing
- arxiv url: http://arxiv.org/abs/2605.26662v1
- Date: Tue, 26 May 2026 07:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.738877
- Title: AI evaluation may bias perceptions: The importance of context in interpreting academic writing
- Title(参考訳): AI評価は偏見を知覚する:学術的文章の解釈における文脈の重要性
- Authors: Shang Wu, Randol Yao,
- Abstract要約: 本稿では,評価手法が各国・分野の文脈差を無視している場合,科学文献におけるAI利用推定値の偏りについて検討する。
プール化されたベンチマークは、既存のスタイル変化をAI生成のテキストと混同し、LLM以前の出版物でもカントリーフィールドグループ間でかなりの歪みを生じさせる可能性がある。
2025年にこれらの手法を出版物に適用すると、プールされたベンチマークは、特定の国や分野においてAIの使用を過小評価しながら、体系的に過大評価していることが明らかになった。
- 参考スコア(独自算出の注目度): 2.5412649391082502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines how estimates of AI use in scientific writing can be biased when evaluation methods ignore contextual differences across countries and fields. Using large-scale data on journal publications from Dimensions, we construct AI-likeness benchmarks based on differences between human-written and LLM-rephrased abstracts. We show that a pooled benchmark may confound pre-existing stylistic variation with AI-generated text, producing substantial distortions across country-field groups even in pre-LLM publications. In contrast, country-field-specific benchmarks attenuate such distortions and provide a more credible baseline for comparison. Applying these methods to publications in 2025 reveals that the pooled benchmark systematically overestimates AI use in certain countries and fields while underestimating it in others. These findings highlight the importance of context-aware measurement for accurate and equitable evaluation of AI use in science.
- Abstract(参考訳): 本稿では,評価手法が各国・分野間の文脈差を無視する場合に,科学文献におけるAI利用推定値の偏りについて検討する。
ダイメンジョンズ誌のジャーナル出版物に関する大規模データを用いて,人間による記述とLLMによる要約の違いに基づいて,AIライクなベンチマークを構築した。
プールされたベンチマークは、既存のスタイル変化をAI生成テキストと混同し、LLM以前の出版物においても、田園部グループ間でかなりの歪みを生じさせる可能性がある。
対照的に、カントリーフィールド固有のベンチマークは、そのような歪みを減らし、比較のためのより信頼性の高いベースラインを提供する。
2025年にこれらの手法を出版物に適用すると、プールされたベンチマークは、特定の国や分野においてAIの使用を過小評価しながら、体系的に過大評価していることが明らかになった。
これらの知見は、科学におけるAI使用の正確かつ公平な評価のための文脈認識測定の重要性を強調している。
関連論文リスト
- BAID: A Benchmark for Bias Assessment of AI Detectors [9.156813547624923]
本稿では,AI検出器の各種バイアスに対する包括的評価フレームワークであるBAIDを提案する。
人口統計,年齢,教育年数,方言,形式,政治的傾倒,話題の7つのカテゴリーにまたがる200万以上のサンプルを紹介した。
検出性能には一貫した相違があり、特に低表現群からのテキストのリコールレートは低い。
論文 参考訳(メタデータ) (2025-12-12T12:01:42Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。