論文の概要: R.U.Psycho? Robust Unified Psychometric Testing of Language Models
- arxiv url: http://arxiv.org/abs/2503.10229v1
- Date: Thu, 13 Mar 2025 10:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:35.521557
- Title: R.U.Psycho? Robust Unified Psychometric Testing of Language Models
- Title(参考訳): R.U.Psycho : 言語モデルのロバスト統一心理学的テスト
- Authors: Julian Schelb, Orr Borin, David Garcia, Andreas Spitz,
- Abstract要約: R.U.Psychoは、生成言語モデルに関する堅牢で再現可能な心理測定実験を設計し、実行するためのフレームワークである。
文献に先行した知見を裏付ける様々な心理測定アンケートにおける枠組みの有効性を実証する。
- 参考スコア(独自算出の注目度): 3.3579972443598214
- License:
- Abstract: Generative language models are increasingly being subjected to psychometric questionnaires intended for human testing, in efforts to establish their traits, as benchmarks for alignment, or to simulate participants in social science experiments. While this growing body of work sheds light on the likeness of model responses to those of humans, concerns are warranted regarding the rigour and reproducibility with which these experiments may be conducted. Instabilities in model outputs, sensitivity to prompt design, parameter settings, and a large number of available model versions increase documentation requirements. Consequently, generalization of findings is often complex and reproducibility is far from guaranteed. In this paper, we present R.U.Psycho, a framework for designing and running robust and reproducible psychometric experiments on generative language models that requires limited coding expertise. We demonstrate the capability of our framework on a variety of psychometric questionnaires, which lend support to prior findings in the literature. R.U.Psycho is available as a Python package at https://github.com/julianschelb/rupsycho.
- Abstract(参考訳): 生成言語モデルは、人間のテスト、特徴の確立、アライメントのベンチマーク、あるいは社会科学実験の参加者をシミュレートするために、心理学的なアンケートの対象になってきている。
この成長する作業体は、人間のモデル反応の類似性に光を当てる一方で、これらの実験が実施される厳密さと再現性に関する懸念が保証されている。
モデル出力の不安定性、設計を促す感度、パラメータ設定、多数の利用可能なモデルバージョンは、ドキュメントの要求を増大させる。
その結果、発見の一般化はしばしば複雑であり、再現性は保証されていない。
本稿では,限定的なコーディング専門知識を必要とする生成言語モデルにおいて,ロバストで再現可能な心理測定実験を設計・実行するためのフレームワークであるR.U.Psychoを提案する。
文献に先行した知見を裏付ける様々な心理測定アンケートにおける枠組みの有効性を実証する。
R.U.PsychoはPythonパッケージとしてhttps://github.com/julianschelb/rupsychoで入手できる。
関連論文リスト
- Reverse-Engineering the Reader [43.26660964074272]
本稿では,線形回帰器のパラメータを暗黙的に最適化するために,言語モデルを微調整する新しいアライメント手法を提案する。
単語をテストケースとして使用し、複数のモデルサイズとデータセットにわたる手法を評価する。
ダウンストリームNLPタスクにおける心理測定パワーとモデルの性能の逆関係と、ホールドアウトテストデータにおけるその難易度を見出した。
論文 参考訳(メタデータ) (2024-10-16T23:05:01Z) - Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales [4.805861461250903]
本稿では,標準的な心理アンケートを自然言語推論のプロンプトに再構成する方法を示す。
我々は、88種類の公開モデルを用いて、人間のようなメンタルヘルス関連構造の存在を実証した。
論文 参考訳(メタデータ) (2024-09-29T11:00:41Z) - Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics [1.1172147007388977]
我々は,9言語で同一のパーソナリティ質問票を用いたアート言語モデルの現状について述べる。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いにつながる可能性がある。
論文 参考訳(メタデータ) (2024-08-14T08:53:00Z) - Nonparametric independence tests in high-dimensional settings, with applications to the genetics of complex disease [55.2480439325792]
遺伝子データの支持空間における適切な事前測定構造の定義が,このような検査に新たなアプローチをもたらすことを示す。
各問題に対して、数学的結果、シミュレーションおよび実データへの適用を提供する。
論文 参考訳(メタデータ) (2024-07-29T01:00:53Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - PyHealth: A Python Library for Health Predictive Models [53.848478115284195]
PyHealthは、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスである。
データ前処理モジュールにより、複雑なヘルスケアデータセットを機械学習フレンドリーなフォーマットに変換できます。
予測モデリングモジュールは、確立されたアンサンブルツリーとディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供します。
論文 参考訳(メタデータ) (2021-01-11T22:02:08Z) - On the Predictive Power of Neural Language Models for Human Real-Time
Comprehension Behavior [29.260666424382446]
我々は、自然言語テキストコーパスにおいて、その次の単語の予測が人間の読書時間をどのように予測するかを、2ダース以上のモデルで検証する。
これらのモデルの特徴が、その心理測定的予測能力や、人間の読書行動を予測する能力をどのように決定するかを評価する。
任意の難易度に対して、ディープトランスフォーマーモデルとn-gramモデルはLSTMや構造的に制御されたニューラルモデルよりも優れた心理測定予測力を示す。
論文 参考訳(メタデータ) (2020-06-02T19:47:01Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。