論文の概要: Evaluating Language Model Character Traits
- arxiv url: http://arxiv.org/abs/2410.04272v1
- Date: Sat, 5 Oct 2024 19:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:49:52.160438
- Title: Evaluating Language Model Character Traits
- Title(参考訳): 言語モデルキャラクタ特性の評価
- Authors: Francis Rhys Ward, Zejia Yang, Alex Jackson, Randy Brown, Chandler Smith, Grace Colverd, Louis Thomson, Raymond Douglas, Patrik Bartak, Andrew Rowan,
- Abstract要約: 言語モデル(LM)は人間のような振る舞いを示すことができる。
この振る舞いを不適切な擬人化なしにどのように記述するかは不明確である。
我々は、LM特性の行動主義的視点を定式化する。
- 参考スコア(独自算出の注目度): 0.7968706282619793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) can exhibit human-like behaviour, but it is unclear how to describe this behaviour without undue anthropomorphism. We formalise a behaviourist view of LM character traits: qualities such as truthfulness, sycophancy, or coherent beliefs and intentions, which may manifest as consistent patterns of behaviour. Our theory is grounded in empirical demonstrations of LMs exhibiting different character traits, such as accurate and logically coherent beliefs, and helpful and harmless intentions. We find that the consistency with which LMs exhibit certain character traits varies with model size, fine-tuning, and prompting. In addition to characterising LM character traits, we evaluate how these traits develop over the course of an interaction. We find that traits such as truthfulness and harmfulness can be stationary, i.e., consistent over an interaction, in certain contexts, but may be reflective in different contexts, meaning they mirror the LM's behavior in the preceding interaction. Our formalism enables us to describe LM behaviour precisely in intuitive language, without undue anthropomorphism.
- Abstract(参考訳): 言語モデル(LM)は人間のような振る舞いを示すことができるが、この振る舞いを不適切な人間同型を伴わずにどのように記述するかは不明確である。
我々は、行動主義的な特徴の行動主義的見解を定式化する: 真理性、梅毒性、一貫性のある信念と意図などの性質は、行動の一貫したパターンとして表される。
我々の理論は、正確で論理的に一貫性のある信念や、有益で無害な意図など、異なる特性を示すLMの実証的な実証に基礎を置いている。
LMが特定の特性を示す一貫性は、モデルサイズ、微調整、プロンプトによって異なる。
LM特性のキャラクタリゼーションに加えて,これらの特性が相互作用の過程でどのように発達するかを評価する。
真理性や有害性といった特性は、ある文脈において、ある相互作用に対して一貫したものであり得るが、異なる文脈において反射的であり、前回の相互作用におけるLMの振る舞いを反映している可能性がある。
我々の形式主義は、直感的な言語でのLMの振る舞いを、不適切な人文準同型を伴わずに正確に記述することができる。
関連論文リスト
- Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - ControlLM: Crafting Diverse Personalities for Language Models [32.411304295746746]
そこで本研究では,モデルの潜在空間における行動プロンプトの対比から導かれる,差動アクティベーションパターンを利用した制御LMを提案する。
まず、トレーニングなしで多様なペルソナ行動を引き出す制御LMの能力を実証する一方、精度制御により、人格特性が平均的な人格値と密に一致できることを実証する。
我々は,良心や親しみなどの有益な属性を選択的に増幅することで,推論と質問応答を改善した。
論文 参考訳(メタデータ) (2024-02-15T17:58:29Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Large Language Models as Superpositions of Cultural Perspectives [25.114678091641935]
大きな言語モデル(LLM)は、しばしば個性や値の集合を持つものとして誤解を招く。
LLMは、異なる価値観と性格特性を持つ視点の重ね合わせとみなすことができる。
論文 参考訳(メタデータ) (2023-07-15T19:04:33Z) - Identifying and Manipulating the Personality Traits of Language Models [9.213700601337383]
言語モデルにおける知覚的パーソナリティが、言語生成において一貫して現れるかどうかを検討する。
BERT や GPT2 のような言語モデルでは、異なる文脈におけるパーソナライズマーカーの識別と反映が一貫して可能であることを示す。
この振る舞いは、非常に予測可能な方法で操作できる能力を示し、それらを人格の特徴を特定し、ダイアログシステムのようなアプリケーションにおけるペルソナを制御するツールとしてフレーム化します。
論文 参考訳(メタデータ) (2022-12-20T14:24:11Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z) - Discourse structure interacts with reference but not syntax in neural
language models [17.995905582226463]
本研究では,異なる言語表現間の相互作用を学習する言語モデル(LM)の能力について検討する。
人間とは対照的に、暗黙の因果関係は文法ではなく、参照行動にのみ影響を及ぼす。
以上の結果から,LMの行動は,学習した言論表現だけでなく,統語的合意にも矛盾する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-10T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。