論文の概要: Slogans or Stance? A Label-Light Diagnostic for Entrepreneurial-Discourse Measurement on Chinese SOE Speeches
- arxiv url: http://arxiv.org/abs/2605.29188v1
- Date: Wed, 27 May 2026 23:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.563826
- Title: Slogans or Stance? A Label-Light Diagnostic for Entrepreneurial-Discourse Measurement on Chinese SOE Speeches
- Title(参考訳): スローガンかスタンスか? 中国語SOE音声における内科的談話計測のためのラベル光診断
- Authors: Ting Gong, Shangquan Sun,
- Abstract要約: コーポレートスピーチにおける「起業家精神」などの構成物を測定するために,ラベル光測定を用いた。
中央管理の中国国有企業のリーダーによる80件の演説のコーパスにおいて,我々は自然実験を生かした。
金F1は、外部構造回復ではなく、LCM自身のプロンプトルールとの整合性を測定する。
- 参考スコア(独自算出の注目度): 4.972323953932128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dictionary methods, topic models, and embedding-similarity scorers are widely used in CSS and management research to measure constructs such as "entrepreneurial spirit" in corporate speeches. We contribute a label-light measurement diagnostic for such instruments rather than a new extraction model. On a corpus of 80 speeches by leaders of centrally administered Chinese state-owned enterprises, we exploit a natural experiment of 24 same-company different-speaker pairs and 5 same-company same-speaker pairs to test whether a method's per-document indices vary with leader identity holding firm constant. LDA fails (Cohen d=0.20, 95% CI [-0.72, 1.20]); a dictionary scorer reaches d=0.81 and a Chinese sentence encoder d=0.65 on doc-vector distances of order 10^-3. A zero-shot 9B open-weight LLM (Qwen3.5:9b) raises paired-contrast d to 1.09 (exact permutation p1=0.034). We downgrade three claims accordingly: gold F1 measures consistency with the LLM's own prompt rule rather than external construct recovery; doc-level style residualisation cuts the LLM's d to 0.43 (p1=0.22), so roughly half of the effect is consistent with leader idiolect; and a confidence-weighted calibration trades Delta for variance with an auto-mined slogan lexicon near-inert in ablation. We release the 2,190-segment scored corpus, the 170-paragraph pilot, the slogan lexicon, two-family LLM scores, and the evaluation harness.
- Abstract(参考訳): 辞書手法、トピックモデル、埋め込み類似点スコアラは、企業スピーチにおける「起業家精神」のような構造を測定するためにCSSやマネジメント研究で広く使われている。
我々は,新しい抽出モデルではなく,ラベル光による計測診断に寄与する。
中央管理の中国企業幹部80名を対象に,同業者24組と同業者5組を自然実験し,その方法の文書ごとの指標が,リーダーのアイデンティティーに一定値を持つかどうかを検証した。
LDAは失敗する(Cohen d=0.20,95% CI [-0.72, 1.20])。
ゼロショット 9B オープンウェイト LLM (Qwen3.5:9b) はペアコントラスト d を 1.09 (exact permutation p1=0.034) に上げる。
金F1 は外部構造回復ではなく LLM 独自のプロンプト規則との整合性を測定する; ドクレベルスタイルの残留化は LLM の d を 0.43 に削減する (p1=0.22)。
我々は,2,190個のスコアコーパス,170個のパラグラフ・パイロット,スローガン・レキシコン,2家族LSMスコア,評価ハーネスを公表した。
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Measurement Risk in Supervised Financial NLP: Rubric and Metric Sensitivity on JF-ICR [1.7107991816118835]
我が国の金融インシシデント・コミット認識における測定リスクについて検討する。
ルーブリックな単語は、モデル指定ラベルを根本的に変えることが判明した。
すべての計量は、JF-ICRクラス分布の下では情報的ではない。
論文 参考訳(メタデータ) (2026-04-30T03:39:14Z) - Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization [0.0]
著者検証理論の基盤評価は,どのベンチマークを計測できるかを変換することを示した。
我々は50人の著者と1000世代にわたる4つの推論時パーソナライズ手法を評価した。
論文 参考訳(メタデータ) (2026-04-29T09:17:01Z) - Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - Measuring What Cannot Be Surveyed: LLMs as Instruments for Latent Cognitive Variables in Labor Economics [0.0]
本稿では,Large Language Models (LLMs) を潜在経済変数の測定手段として用いるための理論的,実践的な基礎を確立する。
LLMが生成したスコアが有効な楽器を構成する4つの条件を定式化する。
次に、このフレームワークを18,796 O*NETタスクステートメントから構築されたAHC_o(Augmented Human Capital Index)に適用します。
論文 参考訳(メタデータ) (2026-04-02T16:17:55Z) - Criterion Validity of LLM-as-Judge for Business Outcomes in Conversational Commerce [10.670366057920205]
対話型AIの評価には多次元対話評価が広く用いられている。
品質スコアが、彼らが提供しようとするダウンストリームの結果と結びついているかどうか、ほとんどテストされていないままです。
LLM-as-Judgeで実装した7次元評価ルーブリックを、検証されたビジネス変換に対して試験する。
論文 参考訳(メタデータ) (2026-03-11T04:47:42Z) - Self-reflection in Automated Qualitative Coding: Improving Text Annotation through Secondary LLM Critique [1.5749416770494706]
大規模言語モデル(LLM)は、大規模なデータセットの高度な定性的な符号化を可能にする。
簡単な一般化可能な2段階のワークフローを提示する: LLMは人間設計のコードブックを適用し、二次LPM批評家は各正のラベルに対して自己回帰を行う。
我々は,Apache Software Foundationのプロジェクト評価に関する議論において,3,000件以上の高コンテンツメールに対する6つの定性的なコードに対して,このアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-14T22:27:13Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。