論文の概要: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
- arxiv url: http://arxiv.org/abs/2510.08915v1
- Date: Fri, 10 Oct 2025 01:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.995122
- Title: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
- Title(参考訳): 人工印象:トラト印象レンズによる大規模言語モデル行動の評価
- Authors: Nicholas Deas, Kathleen McKeown,
- Abstract要約: 言語に基づく人間の印象やステレオタイプに類似したプロンプトに人工印象を導入・研究する。
インプレッションは、その隠された表現からより直線的にデオード可能であることが分かりました。
また,プロンプトの人工印象は,モデル応答におけるヘッジの質や使用を予測できることを示す。
- 参考スコア(独自算出の注目度): 15.227368518047669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
- Abstract(参考訳): 人間の印象と言語に基づくステレオタイプに類似したプロンプトのLLMの内部表現における人工印象パターンを導入,研究する。
線形プローブを生成プロンプトに適合させて2次元ステレオタイプコンテンツモデル(SCM)に基づいて印象を予測する。
これらのプローブを用いて、印象と下流モデル行動の関係や、そのような印象に影響を及ぼす可能性のある特徴について検討する。
LLMはインプレッションをインプレッション時に不整合に報告するが、インプレッションは隠された表現からより一貫したデオードが可能であることも見出した。
さらに,プロンプトの人工印象は,モデル応答におけるヘッジの質や使用を予測できることを示す。
また,特定の内容,スタイル,方言の特徴がLLM印象に与える影響についても検討した。
関連論文リスト
- Words That Make Language Models Perceive [28.549408477623206]
大規模言語モデル(LLM)は、純粋にテキストに基づいて訓練され、直接知覚的な経験が欠けているが、その内部表現は、言語で符号化されたマルチモーダル正規性によって暗黙的に形作られる。
我々は、明示的な感覚刺激がこの潜伏構造を表面化し、テキストのみのLLMを専門的な視覚やオーディオエンコーダと密接な表現的アライメントをもたらすという仮説を検証した。
論文 参考訳(メタデータ) (2025-10-02T17:58:04Z) - Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens [43.43888632864549]
LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
我々は,LVLMが画像中にテキスト概念が存在するかどうかを判断する内部能力を持っているかどうかを調査する。
入力トークンが視覚的に接地されているかどうかを系統的に分類する検出モジュールを開発する。
論文 参考訳(メタデータ) (2025-09-03T05:17:25Z) - Natural Fingerprints of Large Language Models [19.87526607747389]
大規模な言語モデルがまったく同じデータセットでトレーニングされている場合でも、その出力は区別可能であることを示す。
我々は、これらの意図しない特徴を自然の指紋として言及する。
これらの結果は、トレーニングダイナミクスがデータやアーキテクチャに依存しないモデル動作を体系的に形成できることを示唆している。
論文 参考訳(メタデータ) (2025-04-21T05:48:52Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Linguistic Properties of Truthful Response [0.21485350418225244]
我々はGPT-3モデルに焦点をあて、応答の言語的プロファイルがモデルサイズ全体にわたって類似していることを見出した。
我々は、文の真偽を分類するために、モデル応答のスタイリスティックな構成要素にのみ依存する学習支援ベクトルマシンにより、この発見を拡大する。
論文 参考訳(メタデータ) (2023-05-25T09:17:39Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。