論文の概要: Model Misalignment and Language Change: Traces of AI-Associated Language in Unscripted Spoken English
- arxiv url: http://arxiv.org/abs/2508.00238v1
- Date: Fri, 01 Aug 2025 00:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.698407
- Title: Model Misalignment and Language Change: Traces of AI-Associated Language in Unscripted Spoken English
- Title(参考訳): モデルミスと言語変化: 未知の英語におけるAI関連言語のトレース
- Authors: Bryce Anderson, Riley Galpin, Tom S. Juzek,
- Abstract要約: 近年では、特に科学や教育において、文章言語は言葉の使用に顕著な変化を経験している。
モデルアウトプットと対象のオーディエンスノルムの相違は、ミスアライメントの一形態と見なすことができる。
我々は、会話科学と技術ポッドキャストから引き出された、未記述の音声言語から2210万語のデータセットを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, written language, particularly in science and education, has undergone remarkable shifts in word usage. These changes are widely attributed to the growing influence of Large Language Models (LLMs), which frequently rely on a distinct lexical style. Divergences between model output and target audience norms can be viewed as a form of misalignment. While these shifts are often linked to using Artificial Intelligence (AI) directly as a tool to generate text, it remains unclear whether the changes reflect broader changes in the human language system itself. To explore this question, we constructed a dataset of 22.1 million words from unscripted spoken language drawn from conversational science and technology podcasts. We analyzed lexical trends before and after ChatGPT's release in 2022, focusing on commonly LLM-associated words. Our results show a moderate yet significant increase in the usage of these words post-2022, suggesting a convergence between human word choices and LLM-associated patterns. In contrast, baseline synonym words exhibit no significant directional shift. Given the short time frame and the number of words affected, this may indicate the onset of a remarkable shift in language use. Whether this represents natural language change or a novel shift driven by AI exposure remains an open question. Similarly, although the shifts may stem from broader adoption patterns, it may also be that upstream training misalignments ultimately contribute to changes in human language use. These findings parallel ethical concerns that misaligned models may shape social and moral beliefs.
- Abstract(参考訳): 近年では、特に科学や教育において、文章言語は言葉の使用に顕著な変化を経験している。
これらの変化は、Large Language Models (LLMs) の影響が強まり、しばしば異なる語彙スタイルに依存している。
モデルアウトプットと対象のオーディエンスノルムの相違は、ミスアライメントの一形態と見なすことができる。
これらの変化は、しばしばテキストを生成するツールとして人工知能(AI)を直接使用することに結びついているが、この変化が人間の言語システム自体の広範な変化を反映しているかどうかは不明だ。
この問題を探索するため,会話科学と技術ポッドキャストから抽出された音声言語から2210万単語のデータセットを構築した。
2022年のChatGPTリリース前後の語彙傾向をLLM関連語を中心に分析した。
以上の結果から,2022年以降の単語使用量は中程度に増加し,人間の単語選択とLLM関連パターンの収束が示唆された。
対照的に、ベースラインの同義語は大きな方向転換を示さない。
短い時間枠と影響を受ける単語の数を考えると、これは言語使用の顕著な変化の始まりを示すかもしれない。
これが自然言語の変化を表すのか、それともAIの露出によって引き起こされる新しいシフトなのかは、まだ明らかな疑問だ。
同様に、このシフトは広く採用されるパターンに由来するかもしれないが、上流でのトレーニングのミスアライメントが最終的に人間の言語使用の変化に寄与する可能性もある。
これらの知見は、不整合モデルが社会的および道徳的信念を形成するという倫理的懸念と平行している。
関連論文リスト
- Exploring the Structure of AI-Induced Language Change in Scientific English [0.0]
セマンティッククラスタ全体はしばしば一緒に動き、グループ内のほとんどの単語が使用量を増やしています。
このパターンは、大きな言語モデルによって引き起こされる変化は、純粋に語彙ではなく、主に意味的かつ実用的であることを示唆している。
単語の折り畳み解析により,有機言語の変化と一致した,より複雑な画像が明らかとなった。
論文 参考訳(メタデータ) (2025-06-26T23:44:24Z) - Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - We're Calling an Intervention: Exploring Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、ユーザ生成テキストの中核的な特徴と、既存の言語モデルのバイアスとの相互作用を近似する介入を設計する。
非標準テキスト変種への言語モデル適応における介入の適用により、そのような適応がいつ成功したかについて重要な洞察を得る。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Do Not Fire the Linguist: Grammatical Profiles Help Language Models
Detect Semantic Change [6.7485485663645495]
まず,10個のデータセット上での多言語ニューラル言語モデル(XLM-R)の性能を比較し,その性能を7つの言語で比較した。
この結果から,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-04-12T11:20:42Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - How individuals change language [1.2437226707039446]
我々は,多種多様な個人レベルの言語行動を含む,非常に一般的な数学的モデルを導入する。
異なる仮定の下で複数の言語における定冠詞と不定冠詞の実証的な変化の可能性を比較した。
幼児期の言語習得の誤りを主眼とする言語変化の説明は、歴史的データによって非常に弱く支持されている。
論文 参考訳(メタデータ) (2021-04-20T19:02:49Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。