論文の概要: Nationality encoding in language model hidden states: Probing culturally differentiated representations in persona-conditioned academic text
- arxiv url: http://arxiv.org/abs/2604.10151v2
- Date: Tue, 14 Apr 2026 11:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.322654
- Title: Nationality encoding in language model hidden states: Probing culturally differentiated representations in persona-conditioned academic text
- Title(参考訳): 言語モデル隠れ状態における国籍符号化:ペルソナ条件の学術文献における文化的区別された表現の提案
- Authors: Paul Jackson, Ruizhe Li, Elspeth Edelstein,
- Abstract要約: 本研究では, Gemma-3-4b-itが学術テキストを生成する際に, 隠れ状態の国籍識別情報を符号化するかどうかを検証した。
270のテキストのコーパスが45のプロンプトテンプレートから生成され、2×3の設計で6つのペルソナ条件が交わった。
発見は、探索手法を社会言語学的属性に拡張し、EAPと言語教育に実践的な意味を持つ。
- 参考スコア(独自算出の注目度): 4.0057643036291815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used as writing tools and pedagogical resources in English for Academic Purposes, but it remains unclear whether they encode culturally differentiated representations when generating academic text. This study tests whether Gemma-3-4b-it encodes nationality-discriminative information in hidden states when generating research article introductions conditioned by British and Chinese academic personas. A corpus of 270 texts was generated from 45 prompt templates crossed with six persona conditions in a 2 x 3 design. Logistic regression probes were trained on hidden-state activations across all 35 layers, with shuffled-label baselines, a surface-text skyline classifier, cross-family tests, and sentence-level baselines used as controls. Probe-selected token positions were annotated for structural, lexical, and stance features using the Stanza NLP pipeline. The nationality probe reached 0.968 cross-validated accuracy at Layer 18, with perfect held-out classification. Nationality encoding followed a non-monotonic trajectory across layers, with structural effects strongest in the middle to upper network and lexical-domain effects peaking earlier. At high-signal token positions, British-associated patterns showed more postmodification, hedging, boosting, passive voice, and evaluative or process-oriented vocabulary, while Chinese-associated patterns showed more premodification, nominal predicates, and sociocultural or internationalisation vocabulary. However, sentence-level analysis found no significant nationality differences in the full generated surface text. The findings extend probing methodology to a sociolinguistic attribute and have practical implications for EAP and language pedagogy.
- Abstract(参考訳): 大規模な言語モデルは、学術的目的のために英語で書かれたツールや教育資源として使われることが多いが、学術的なテキストを生成する際に文化的に区別された表現を符号化するかどうかは不明である。
本研究は,イギリスおよび中国の学者が規定した研究論文の紹介文を作成する際に,ジェマ-3-4b-itが隠蔽状態の国籍識別情報を符号化するかどうかを検証した。
270のテキストのコーパスが45のプロンプトテンプレートから生成され、2×3の設計で6つのペルソナ条件が交わった。
ロジスティック回帰プローブは、シャッフルラベルベースライン、表面テキストスカイライン分類器、クロスファミリーテスト、および制御として使用される文レベルベースラインを含む、35層すべての隠れ状態活性化に基づいて訓練された。
プローブ選択されたトークン位置は、Stanza NLPパイプラインを使用した構造的、語彙的、姿勢的特徴のために注釈付けされた。
国家性調査は第18層で0.968の精度に達し、完全な機密扱いとなった。
国籍の符号化は、層をまたいだ非単調な軌道を辿り、中央から上部のネットワークにおいて構造的効果が最強となり、語彙領域効果がピークに達した。
高信号のトークン位置では、イギリス関連パターンは、ポストモディフィケーション、ヘッジ、ブージング、パッシブ音声、評価またはプロセス指向の語彙を示し、中国関連パターンは、よりプレモディフィケーション、名目的述語、社会文化的または国際化の語彙を示した。
しかし, 文レベルの分析では, 完全な表層テキストに有意な国籍差は認められなかった。
この知見は,社会言語学的属性の探索手法を拡張し,EAPと言語教育に実践的な意味を持つ。
関連論文リスト
- Multilingual Embedding Probes Fail to Generalize Across Learner Corpora [0.17188280334580197]
我々は,9つのコーパスと7つの言語にわたる学習者テキストからCEFR習熟度を予測するために,隠れ状態のアクティベーションに関するプローブを訓練する。
分布評価では、プローブは強い性能を達成し、表面ベースラインを大幅に上回る。
クロスコーパス評価では、全てのプローブタイプとモデルサイズで性能が崩壊する。
これらの結果から,現在の多言語埋め込みは言語一般の習熟度を直接符号化するものではないことが示唆された。
論文 参考訳(メタデータ) (2026-04-08T13:47:54Z) - BiST: A Gold Standard Bangla-English Bilingual Corpus for Sentence Structure and Tense Classification with Inter-Annotator Agreement [0.17398560678845076]
BiSTは文レベルの文法分類のための厳格に硬化したバングラ英語コーパスである。
コーパスは、オープンライセンスの百科事典ソースと自然に書かれた会話テキストからコンパイルされる。
BiSTは、制御されたテキスト生成、自動フィードバック生成、言語間表現学習を含む文法モデリングタスクをサポートする。
論文 参考訳(メタデータ) (2026-04-06T14:22:46Z) - Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification [2.4071330817126477]
韓国の短文分類のための階層的ヘテロジニアスグラフモデルであるLIGRAMを提案する。
提案モデルでは, 形態素, パート・オブ・スポーチ, 名前の一致度でサブグラフを構築し, 階層的に統合し, 短いテキストで限られた文脈情報を補う。
韓国の4つの短文データセット上でLIGRAMを評価し、既存のベースラインモデルより一貫して優れています。
論文 参考訳(メタデータ) (2026-03-04T02:17:13Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。