論文の概要: From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection of LLM-Generated Korean Text
- arxiv url: http://arxiv.org/abs/2601.19913v1
- Date: Tue, 06 Jan 2026 10:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.525788
- Title: From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection of LLM-Generated Korean Text
- Title(参考訳): 直観から専門家へ:LLM生成韓国語テキストの人間検出のためのルーブリックに基づく認知的校正
- Authors: Shinwoo Park, Yo-Sub Han,
- Abstract要約: LREADは韓国の国産書記法から派生した筆記体である。
フェーズ1は直感のみの検出、フェーズ2は基準レベルスコア、フェーズ3はドメイン中心の熟達を評価します。
フェーズ全体では、多数投票の精度は60%から100%に上昇し、アノテーション間の合意が強まる。
- 参考スコア(独自算出の注目度): 7.067247930901556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distinguishing human-written Korean text from fluent LLM outputs remains difficult even for linguistically trained readers, who can over-trust surface well-formedness. We study whether expert detection can be treated as a learnable skill and improved through structured calibration. We introduce LREAD, a rubric derived from national Korean writing standards and adapted to target micro-level artifacts (e.g., punctuation optionality, spacing behavior, and register shifts). In a three-phase longitudinal blind protocol with Korean linguistics majors, Phase 1 measures intuition-only detection, Phase 2 enforces criterion-level scoring with explicit justifications, and Phase 3 evaluates domain-focused mastery on held-out elementary essays. Across phases, majority-vote accuracy increases from 60% to 100%, accompanied by stronger inter-annotator agreement (Fleiss' kappa: -0.09 --> 0.82). Compared to state-of-the-art LLM detectors, calibrated humans rely more on language-specific micro-diagnostics that are not well captured by coarse discourse priors. Our findings suggest that rubric-scaffolded expert judgment can serve as an interpretable complement to automated detectors for non-English settings, and we release the full rubric and a taxonomy of calibrated detection signatures.
- Abstract(参考訳): LLM出力からの人文韓国語テキストの排除は、言語的に訓練された読者でさえも困難であり、表面の良質さを過度に信頼することができる。
本研究では,専門家検出を学習可能なスキルとして扱えるか,構造化キャリブレーションによって改善できるかを検討する。
LREADは韓国の書記基準から派生したもので,マイクロレベルのアーティファクト(句読点オプション,スペーシング行動,レジスタシフトなど)をターゲットにしている。
韓国の言語学者らによる3段階の縦ブラインドプロトコルでは、第1フェーズは直観のみの検出を計測し、第2フェーズは明確な正当化で基準レベルスコアを強制し、第3フェーズは保持された初等エッセイに基づいてドメイン中心の熟達を評価する。
相全体では、多数投票の精度は60%から100%に上昇し、さらに強いアノテータ間の合意(Fleiss' kappa: -0.09 --> 0.82)が得られた。
最先端のLDM検出器と比較して、キャリブレーションされた人間は、粗い談話の先行でうまく捉えられていない言語固有のマイクロ診断に依存している。
以上の結果から,ルーブリック・スカラード・エキスパートによる判断は,非英語設定のための自動検知器の解釈可能な補完として有効であることが示唆され,全ルーブリックと校正された検出シグネチャの分類を公表した。
関連論文リスト
- DETECT: Determining Ease and Textual Clarity of German Text Simplifications [4.005744004522348]
DETECTは、3次元の単純さ、すなわち保存性、および流布性でATSの品質を均等に評価する最初のドイツ固有の計量である。
テキストの簡易化のために,ドイツ最大の人体評価データセットを構築し,我々の測定値を直接検証する。
論文 参考訳(メタデータ) (2025-10-25T08:20:18Z) - Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - KatFishNet: Detecting LLM-Generated Korean Text through Linguistic Feature Analysis [7.681048890143491]
LLM生成韓国語テキストを検出するための最初のベンチマークデータセットであるKatFishを紹介する。
音声の間隔パターン,部分音声の多様性,コンマ使用法を調べた結果,人文文とLLM生成韓国語文との言語的差異が明らかになった。
KatFishNetはAUROCよりも平均19.78%高い。
論文 参考訳(メタデータ) (2025-02-25T00:59:27Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。