論文の概要: Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity
- arxiv url: http://arxiv.org/abs/2309.06364v3
- Date: Sun, 4 Feb 2024 19:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:19:15.947406
- Title: Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity
- Title(参考訳): フレームワークに基づく大規模言語モデルの自由応答の質的分析:アルゴリズム的忠実性
- Authors: Aliya Amirova, Theodora Fteropoulli, Nafiso Ahmed, Martin R. Cowie,
Joel Z. Leibo
- Abstract要約: 大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 1.7947441434255664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, using Large-scale generative Language Models (LLMs) it is possible to
simulate free responses to interview questions like those traditionally
analyzed using qualitative research methods. Qualitative methodology
encompasses a broad family of techniques involving manual analysis of
open-ended interviews or conversations conducted freely in natural language.
Here we consider whether artificial "silicon participants" generated by LLMs
may be productively studied using qualitative methods aiming to produce
insights that could generalize to real human populations. The key concept in
our analysis is algorithmic fidelity, a term introduced by Argyle et al. (2023)
capturing the degree to which LLM-generated outputs mirror human
sub-populations' beliefs and attitudes. By definition, high algorithmic
fidelity suggests latent beliefs elicited from LLMs may generalize to real
humans, whereas low algorithmic fidelity renders such research invalid. Here we
used an LLM to generate interviews with silicon participants matching specific
demographic characteristics one-for-one with a set of human participants. Using
framework-based qualitative analysis, we showed the key themes obtained from
both human and silicon participants were strikingly similar. However, when we
analyzed the structure and tone of the interviews we found even more striking
differences. We also found evidence of the hyper-accuracy distortion described
by Aher et al. (2023). We conclude that the LLM we tested (GPT-3.5) does not
have sufficient algorithmic fidelity to expect research on it to generalize to
human populations. However, the rapid pace of LLM research makes it plausible
this could change in the future. Thus we stress the need to establish epistemic
norms now around how to assess validity of LLM-based qualitative research,
especially concerning the need to ensure representation of heterogeneous lived
experiences.
- Abstract(参考訳): 現在、大規模生成言語モデル(LLM)を用いて、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する無料応答をシミュレートすることが可能である。
質的方法論は、自然言語で自由に行われるオープンなインタビューや会話の手動分析を含む幅広い技術群を含んでいる。
ここでは, LLMが生成する人工シリコン参加者を, 実人口に一般化可能な洞察を生み出すための質的手法を用いて, 生産的に研究できるかどうかを考察する。
我々の分析における重要な概念はアルゴリズムの忠実さである。Argyle et al. (2023) によって導入された用語で、LLMが生成する人間のサブ集団の信念と態度を反映する程度を捉えている。
定義上、アルゴリズムの忠実度が高いことは、LSMから派生した潜在信念が現実の人間に一般化する可能性があることを示唆している。
そこで我々はLLMを用いて、特定の人口統計学的特徴に適合するシリコン参加者へのインタビューを生成した。
フレームワークに基づく定性分析を用いて,人間とシリコンの双方から得られた重要なテーマが極めて類似していることを示した。
しかし、インタビューの構造とトーンを分析すると、さらに顕著な違いが見つかりました。
また, aher et al. (2023) が記述した過正確な歪みの証拠も見いだした。
結論として,gpt-3.5は,ヒトに一般化する研究を期待するほどアルゴリズム的忠実性が不十分であることがわかった。
しかし、llm研究の急速なペースによって、将来これが変わる可能性がある。
そこで我々は,LLMに基づく質的研究の妥当性を評価するために,現在,先天的な規範を確立する必要性を強調している。
関連論文リスト
- Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。
本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。
LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文 参考訳(メタデータ) (2024-11-18T21:28:00Z) - 'Simulacrum of Stories': Examining Large Language Models as Qualitative Research Participants [13.693069737188859]
生産モデルに関する最近の興奮は、研究開発における人間の参加と労働の置き換えを示唆する提案の波を引き起こしている。
我々は,このパラダイムシフトの視点を理解するために,19人の定性的な研究者にインタビューを行った。
論文 参考訳(メタデータ) (2024-09-28T18:28:47Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Can Large Language Models emulate an inductive Thematic Analysis of
semi-structured interviews? An exploration and provocation on the limits of
the approach and the model [0.0]
本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。
本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。
論文 参考訳(メタデータ) (2023-05-22T13:16:07Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。