論文の概要: Adding LLMs to the psycholinguistic norming toolbox: A practical guide to getting the most out of human ratings
- arxiv url: http://arxiv.org/abs/2509.14405v1
- Date: Wed, 17 Sep 2025 20:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.965437
- Title: Adding LLMs to the psycholinguistic norming toolbox: A practical guide to getting the most out of human ratings
- Title(参考訳): 心理言語的規範化ツールボックスにLLMを追加する:人間の評価を最大限活用するための実践的ガイド
- Authors: Javier Conde, María Grandury, Tairan Fu, Carlos Arriaga, Gonzalo Martínez, Thomas Clark, Sean Trott, Clarence Gerald Green, Pedro Reviriego, Marc Brysbaert,
- Abstract要約: 本稿では,Large Language Models (LLM) を用いた単語特性推定手法を提案する。
ガイドの主な重点は、人間の「金の標準」規範によるLCM生成データの検証である。
また、当社の方法論を実装し、商用モデルとオープンウェイトモデルの両方をサポートするソフトウェアフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.019061035507826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word-level psycholinguistic norms lend empirical support to theories of language processing. However, obtaining such human-based measures is not always feasible or straightforward. One promising approach is to augment human norming datasets by using Large Language Models (LLMs) to predict these characteristics directly, a practice that is rapidly gaining popularity in psycholinguistics and cognitive science. However, the novelty of this approach (and the relative inscrutability of LLMs) necessitates the adoption of rigorous methodologies that guide researchers through this process, present the range of possible approaches, and clarify limitations that are not immediately apparent, but may, in some cases, render the use of LLMs impractical. In this work, we present a comprehensive methodology for estimating word characteristics with LLMs, enriched with practical advice and lessons learned from our own experience. Our approach covers both the direct use of base LLMs and the fine-tuning of models, an alternative that can yield substantial performance gains in certain scenarios. A major emphasis in the guide is the validation of LLM-generated data with human "gold standard" norms. We also present a software framework that implements our methodology and supports both commercial and open-weight models. We illustrate the proposed approach with a case study on estimating word familiarity in English. Using base models, we achieved a Spearman correlation of 0.8 with human ratings, which increased to 0.9 when employing fine-tuned models. This methodology, framework, and set of best practices aim to serve as a reference for future research on leveraging LLMs for psycholinguistic and lexical studies.
- Abstract(参考訳): 単語レベルの精神言語学の規範は、言語処理の理論に実証的な支持を与えている。
しかし、このような人為的措置は必ずしも実現可能あるいは容易であるとは限らない。
1つの有望なアプローチは、大きな言語モデル(LLM)を使用してこれらの特性を直接予測することで、人間の規範データセットを強化することである。
しかし、このアプローチの新規性(およびLLMの相対的な不可解性)は、このプロセスを通じて研究者を導く厳密な方法論の採用を必要とし、可能なアプローチの範囲を提示し、すぐには明らかでないが、場合によってはLLMの使用を非現実的なものにする。
本研究では,LLMを用いて単語の特徴を推定するための包括的方法論を提案する。
提案手法は, ベースLLMの直接使用とモデル微調整の両方を対象とし, 特定のシナリオにおいて大幅な性能向上が期待できる代替手段である。
ガイドの主な重点は、人間の「金の標準」規範によるLCM生成データの検証である。
また、当社の方法論を実装し、商用モデルとオープンウェイトモデルの両方をサポートするソフトウェアフレームワークを提案する。
提案手法は、英語における単語の親しみ度を推定するケーススタディで説明する。
ベースモデルを用いて,スピアマンと人間の評価値との相関を0.8とし,微調整モデルを用いた場合,0.9に向上した。
この方法論、枠組み、ベストプラクティスのセットは、精神言語学および語彙学研究にLLMを活用するための将来の研究の参考となることを目的としている。
関連論文リスト
- Nonparametric LLM Evaluation from Preference Data [86.96268870461472]
本研究では,大規模言語モデル (LLM) を選好データから比較・ランク付けするための非パラメトリック統計フレームワークDMLEvalを提案する。
我々のフレームワークは、LLMを比較したり、ランキングしたりするための強力な最先端の手法を実践者に提供します。
論文 参考訳(メタデータ) (2026-01-29T15:00:07Z) - A word association network methodology for evaluating implicit biases in LLMs compared to humans [0.0]
大規模言語モデル(LLM)における暗黙バイアス評価のための新しい単語関連ネットワーク手法を提案する。
提案手法では,LLMに符号化された暗黙的関係構造を解析し,バイアスの定量的および定性的評価を行う。
提案手法の有用性を実証するために, 性別, 宗教, 民族性, 性的指向, 政党に関連する社会的偏見を調べるために, 人間と多用されたLLMの両方に適用した。
論文 参考訳(メタデータ) (2025-10-28T15:03:18Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [54.38054999271322]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,彼らの信念を更新しないことを示す。
我々は、標準ベイズモデルの予測を模倣するように訓練することで、ベイズ的方法による推論をLLMに教える。
より一般的には,LLMは実例から推論スキルを効果的に学習し,それらのスキルを新しいドメインに一般化できることを示す。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - Can DPO Learn Diverse Human Values? A Theoretical Scaling Law [7.374590753074647]
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。
本稿では,値の多様性とサンプル量とともに一般化がいかにスケールするかを解析するための新しい理論的枠組みを提案する。
我々のフレームワークは、有限個の勾配ステップの後、モデルがどのように一般化するかを厳格に評価する。
論文 参考訳(メタデータ) (2024-08-06T22:11:00Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。