論文の概要: Adding LLMs to the psycholinguistic norming toolbox: A practical guide to getting the most out of human ratings
- arxiv url: http://arxiv.org/abs/2509.14405v1
- Date: Wed, 17 Sep 2025 20:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.965437
- Title: Adding LLMs to the psycholinguistic norming toolbox: A practical guide to getting the most out of human ratings
- Title(参考訳): 心理言語的規範化ツールボックスにLLMを追加する:人間の評価を最大限活用するための実践的ガイド
- Authors: Javier Conde, María Grandury, Tairan Fu, Carlos Arriaga, Gonzalo Martínez, Thomas Clark, Sean Trott, Clarence Gerald Green, Pedro Reviriego, Marc Brysbaert,
- Abstract要約: 本稿では,Large Language Models (LLM) を用いた単語特性推定手法を提案する。
ガイドの主な重点は、人間の「金の標準」規範によるLCM生成データの検証である。
また、当社の方法論を実装し、商用モデルとオープンウェイトモデルの両方をサポートするソフトウェアフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.019061035507826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word-level psycholinguistic norms lend empirical support to theories of language processing. However, obtaining such human-based measures is not always feasible or straightforward. One promising approach is to augment human norming datasets by using Large Language Models (LLMs) to predict these characteristics directly, a practice that is rapidly gaining popularity in psycholinguistics and cognitive science. However, the novelty of this approach (and the relative inscrutability of LLMs) necessitates the adoption of rigorous methodologies that guide researchers through this process, present the range of possible approaches, and clarify limitations that are not immediately apparent, but may, in some cases, render the use of LLMs impractical. In this work, we present a comprehensive methodology for estimating word characteristics with LLMs, enriched with practical advice and lessons learned from our own experience. Our approach covers both the direct use of base LLMs and the fine-tuning of models, an alternative that can yield substantial performance gains in certain scenarios. A major emphasis in the guide is the validation of LLM-generated data with human "gold standard" norms. We also present a software framework that implements our methodology and supports both commercial and open-weight models. We illustrate the proposed approach with a case study on estimating word familiarity in English. Using base models, we achieved a Spearman correlation of 0.8 with human ratings, which increased to 0.9 when employing fine-tuned models. This methodology, framework, and set of best practices aim to serve as a reference for future research on leveraging LLMs for psycholinguistic and lexical studies.
- Abstract(参考訳): 単語レベルの精神言語学の規範は、言語処理の理論に実証的な支持を与えている。
しかし、このような人為的措置は必ずしも実現可能あるいは容易であるとは限らない。
1つの有望なアプローチは、大きな言語モデル(LLM)を使用してこれらの特性を直接予測することで、人間の規範データセットを強化することである。
しかし、このアプローチの新規性(およびLLMの相対的な不可解性)は、このプロセスを通じて研究者を導く厳密な方法論の採用を必要とし、可能なアプローチの範囲を提示し、すぐには明らかでないが、場合によってはLLMの使用を非現実的なものにする。
本研究では,LLMを用いて単語の特徴を推定するための包括的方法論を提案する。
提案手法は, ベースLLMの直接使用とモデル微調整の両方を対象とし, 特定のシナリオにおいて大幅な性能向上が期待できる代替手段である。
ガイドの主な重点は、人間の「金の標準」規範によるLCM生成データの検証である。
また、当社の方法論を実装し、商用モデルとオープンウェイトモデルの両方をサポートするソフトウェアフレームワークを提案する。
提案手法は、英語における単語の親しみ度を推定するケーススタディで説明する。
ベースモデルを用いて,スピアマンと人間の評価値との相関を0.8とし,微調整モデルを用いた場合,0.9に向上した。
この方法論、枠組み、ベストプラクティスのセットは、精神言語学および語彙学研究にLLMを活用するための将来の研究の参考となることを目的としている。
関連論文リスト
- Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。