論文の概要: The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models
- arxiv url: http://arxiv.org/abs/2604.19139v2
- Date: Sun, 26 Apr 2026 15:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 13:03:00.476532
- Title: The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models
- Title(参考訳): 大規模言語モデルにおける言語表現の台頭:フロンティアモデル全体の体系的分析
- Authors: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang, Ran Wang,
- Abstract要約: 本研究では,8つの言語モデル(LLM)の言語性現象を体系的に解析する。
本研究は,VTI (Verbal Tic Index) を用いて, 梅毒の有病率を定量化し, 梅毒, 語彙の多様性, 人間の知覚する自然性との相関を解析した。
- 参考スコア(独自算出の注目度): 12.320824168302908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) continue to evolve through alignment techniques such as Reinforcement Learning from Human Feedback (RLHF) and Constitutional AI, a growing and increasingly conspicuous phenomenon has emerged: the proliferation of verbal tics, repetitive, formulaic linguistic patterns that pervade model outputs. These range from sycophantic openers (That's a great question!, Awesome!) to pseudo-empathetic affirmations (I completely understand your concern, I'm right here to catch you) and overused vocabulary (delve, tapestry, nuanced). In this paper, we present a systematic analysis of the verbal tic phenomenon across eight state-of-the-art LLMs: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro, Grok 4.2, Doubao-Seed-2.0-pro, Kimi K2.5, DeepSeek V3.2, and MiMo-V2-Pro. Utilizing a custom evaluation framework for standardized API-based evaluation, we assess 10,000 prompts across 10 task categories in both English and Chinese, yielding 160,000 model responses. We introduce the Verbal Tic Index (VTI), a composite metric quantifying tic prevalence, and analyze its correlation with sycophancy, lexical diversity, and human-perceived naturalness. Our findings reveal significant inter-model variation: Gemini 3.1 Pro exhibits the highest VTI (0.590), while DeepSeek V3.2 achieves the lowest (0.295). We further demonstrate that verbal tics accumulate over multi-turn conversations, are amplified in subjective tasks, and show distinct cross-lingual patterns. Human evaluation (N = 120) confirms a strong inverse relationship between sycophancy and perceived naturalness (r = -0.87, p < 0.001). These results underscore the alignment tax of current training paradigms and highlight the urgent need for more authentic human-AI interaction frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のフィードバックからの強化学習(RLHF)や構成AIといったアライメント技術を通じて進化し続けており、成長し、ますます顕著な現象が出現している。
サイコファンのオープナー(これは素晴らしい質問です!)から、疑似共感的な肯定(あなたの懸念を完全に理解して、あなたを捕まえるためにここにいる)、語彙(デル、タペストリー、ニュアンスド)まで、さまざまです。
本稿では,8つの最先端LCM(GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro, Grok 4.2, Doubao-Seed-2.0-pro, Kimi K2.5, DeepSeek V3.2, MiMo-V2-Pro)の言語性現象を体系的に解析する。
標準化されたAPIベースの評価のためのカスタム評価フレームワークを利用することで、英語と中国語の10のタスクカテゴリにまたがる1万のプロンプトを評価し、16万のモデル応答を得た。
本研究は,VTI (Verbal Tic Index) を用いて, 梅毒の有病率を定量化し, 梅毒, 語彙の多様性, 人間の知覚する自然性との相関を解析した。
Gemini 3.1 ProはVTIが0.590、DeepSeek V3.2は0.295である。
さらに,多ターン会話に単語が蓄積され,主観的タスクが増幅され,言語間パターンが異なることを示す。
人間の評価(N = 120)は、梅毒と知覚自然性(r = -0.87, p < 0.001)の強い逆関係を確認する。
これらの結果は、現在のトレーニングパラダイムのアライメント税を強調し、より信頼できる人間とAIのインタラクションフレームワークに対する緊急の必要性を強調します。
関連論文リスト
- Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs [1.7778609937758327]
大規模言語モデル(LLM)は、幅広いタスクで高いパフォーマンスを達成しているが、梅毒の傾向もある。
以前の研究は、ChatGPT-3.5やDavinciといった初期のモデルにおいて、梅毒の程度と根本原因の両方を概説している。
本研究は、この言語が梅毒の反応にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2026-03-29T12:31:05Z) - Repetition Without Exclusivity: Scale Sensitivity of Referential Mechanisms in Child-Scale Language Models [0.0]
子ども指向音声で訓練された言語モデルにおいて、相互排他性は参照抑制として機能する。
子指向音声における分布学習は、語彙的排他性よりも反復に基づく参照追跡を生成する。
我々は、参照グラウンドディングは、ナチビストではなく、必要な入力構造に関する実証的な主張であるMEにとって必要な要素であるかもしれないと論じる。
論文 参考訳(メタデータ) (2026-03-14T01:59:50Z) - Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster [23.057593480189652]
自己監督音声モデル(S3Ms)から導かれる言語表現の類似性は,近年の拡大や接触によって引き起こされる地理的近接性や表面の類型的類似性を主に反映することが観察されている。
本研究では,S3Mに基づく言語識別システムの言語範囲を126言語から4,017言語に拡大することが,このトポロジにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2026-03-07T14:48:48Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics [1.1172147007388977]
我々は,9言語で同一のパーソナリティ質問票を用いたアート言語モデルの現状について述べる。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いにつながる可能性がある。
論文 参考訳(メタデータ) (2024-08-14T08:53:00Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。