論文の概要: Assessing effect sizes, variability, and power in the on-line study of language production
- arxiv url: http://arxiv.org/abs/2403.15459v1
- Date: Tue, 19 Mar 2024 11:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:41:56.494272
- Title: Assessing effect sizes, variability, and power in the on-line study of language production
- Title(参考訳): 言語生産のオンライン研究における効果の大きさ, 多様性, 力の評価
- Authors: Bürki Audrey, Vasishth Shravan,
- Abstract要約: 実験室とオンラインで行った同じ単語生成実験で得られた応答時間データを比較した。
実験の過程における応答の整合性において,2つの設定が効果の大きさで異なるか否かを判定する。
一連のシミュレーションにおいて,これらの違いが設計のパワーに与える影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the pandemic, many experimental psychologists and linguists have started to collect data over the internet (hereafter on-line data). The feasibility of such experiments and the sample sizes required to achieve sufficient statistical power in future experiments have to be assessed. This in turn requires information on effect sizes and variability. In a series of analyses, we compare response time data obtained in the same word production experiment conducted in the lab and on-line. These analyses allow us to determine whether the two settings differ in effect sizes, in the consistency of responses over the course of the experiment, in the variability of average response times across participants, in the magnitude of effect sizes across participants, or in the amount of unexplained variability. We assess the impact of these differences on the power of the design in a series of simulations. Our findings temper the enthusiasm raised by previous studies and suggest that on-line production studies might be feasible but at a non-negligible cost. The sample sizes required to achieve sufficient power in on-line language production studies come with a non-negligible increase in the amount of manual labour.
- Abstract(参考訳): パンデミックにより、多くの実験心理学者や言語学者がインターネット上でデータを集め始めた(オンラインデータ以降)。
このような実験の実現可能性と、将来の実験で十分な統計的パワーを達成するために必要なサンプルサイズを評価する必要がある。
これにより、効果の大きさや変動性に関する情報が必要となる。
そこで本研究では,実験室とオンラインで行った同じ単語生成実験で得られた応答時間データを比較した。
これらの分析により,2つの設定が効果サイズに異なるか,実験中における応答の整合性,参加者間の平均応答時間のばらつき,参加者間の効果サイズの大きさ,説明できない変数の量で異なるかを決定することができる。
一連のシミュレーションにおいて,これらの違いが設計のパワーに与える影響を評価する。
これまでの研究から得られた熱意を抑えつつ, オンライン生産研究は実現可能であるが, 非無視コストが伴う可能性が示唆された。
オンライン言語生産研究において十分なパワーを達成するために必要なサンプルサイズは、手作業量の増加が不可避である。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Contexts Matter: An Empirical Study on Contextual Influence in Fairness Testing for Deep Learning Systems [3.077531983369872]
さまざまなコンテキストが公平性テストの結果にどのように影響するかを理解することを目的としている。
私たちの結果は、異なるコンテキストタイプと設定が一般的にテストに重大な影響を与えることを示しています。
論文 参考訳(メタデータ) (2024-08-12T12:36:06Z) - Relevant information in TDD experiment reporting [40.670930098576775]
この記事では、外部品質を研究するTDD実験において、応答変数の操作コンポーネントを特定することを目的としています。
テストスイート、介入タイプ、測定器は、システムマッピング研究(SMS)の測定と結果に影響を及ぼす。
SMSの結果は、TDD実験がテストスイート、テストケース生成方法、あるいは外部品質の測定方法の詳細を報告していないことを確認しています。
論文 参考訳(メタデータ) (2024-06-10T15:57:56Z) - Identification of Single-Treatment Effects in Factorial Experiments [0.0]
実験において複数の介入がランダム化されている場合、実験環境外において単一の介入が与える影響は、不在の英雄的仮定とは見なされないことを示す。
観測研究と要因実験は、ゼロおよび複数介入による潜在的アウトカム分布に関する情報を提供する。
この種の設計に頼っている研究者は、関数形式の線形性を正当化するか、あるいはDirected Acyclic Graphsで変数が実世界でどのように関連しているかを特定する必要がある。
論文 参考訳(メタデータ) (2024-05-16T04:01:53Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Fair Effect Attribution in Parallel Online Experiments [57.13281584606437]
A/Bテストは、オンラインサービスで導入された変更の影響を確実に特定する目的で役立ちます。
オンラインプラットフォームでは,ユーザトラフィックをランダムに分割して多数の同時実験を行うのが一般的である。
異なるグループ間の完全なランダム化にもかかわらず、同時実験は互いに相互作用し、平均的な集団の結果に負の影響をもたらす。
論文 参考訳(メタデータ) (2022-10-15T17:15:51Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - On the Importance of Data Size in Probing Fine-tuned Models [18.69409646532038]
符号化された言語知識の程度は、微調整サンプルの数に依存することを示す。
我々は、微調整データサイズがモデルの言語知識に対する変更の回復可能性に影響を及ぼす一連の実験を通して示す。
論文 参考訳(メタデータ) (2022-03-17T21:45:17Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。