論文の概要: Assessing effect sizes, variability, and power in the on-line study of language production
- arxiv url: http://arxiv.org/abs/2403.15459v1
- Date: Tue, 19 Mar 2024 11:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:41:56.494272
- Title: Assessing effect sizes, variability, and power in the on-line study of language production
- Title(参考訳): 言語生産のオンライン研究における効果の大きさ, 多様性, 力の評価
- Authors: Bürki Audrey, Vasishth Shravan,
- Abstract要約: 実験室とオンラインで行った同じ単語生成実験で得られた応答時間データを比較した。
実験の過程における応答の整合性において,2つの設定が効果の大きさで異なるか否かを判定する。
一連のシミュレーションにおいて,これらの違いが設計のパワーに与える影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the pandemic, many experimental psychologists and linguists have started to collect data over the internet (hereafter on-line data). The feasibility of such experiments and the sample sizes required to achieve sufficient statistical power in future experiments have to be assessed. This in turn requires information on effect sizes and variability. In a series of analyses, we compare response time data obtained in the same word production experiment conducted in the lab and on-line. These analyses allow us to determine whether the two settings differ in effect sizes, in the consistency of responses over the course of the experiment, in the variability of average response times across participants, in the magnitude of effect sizes across participants, or in the amount of unexplained variability. We assess the impact of these differences on the power of the design in a series of simulations. Our findings temper the enthusiasm raised by previous studies and suggest that on-line production studies might be feasible but at a non-negligible cost. The sample sizes required to achieve sufficient power in on-line language production studies come with a non-negligible increase in the amount of manual labour.
- Abstract(参考訳): パンデミックにより、多くの実験心理学者や言語学者がインターネット上でデータを集め始めた(オンラインデータ以降)。
このような実験の実現可能性と、将来の実験で十分な統計的パワーを達成するために必要なサンプルサイズを評価する必要がある。
これにより、効果の大きさや変動性に関する情報が必要となる。
そこで本研究では,実験室とオンラインで行った同じ単語生成実験で得られた応答時間データを比較した。
これらの分析により,2つの設定が効果サイズに異なるか,実験中における応答の整合性,参加者間の平均応答時間のばらつき,参加者間の効果サイズの大きさ,説明できない変数の量で異なるかを決定することができる。
一連のシミュレーションにおいて,これらの違いが設計のパワーに与える影響を評価する。
これまでの研究から得られた熱意を抑えつつ, オンライン生産研究は実現可能であるが, 非無視コストが伴う可能性が示唆された。
オンライン言語生産研究において十分なパワーを達成するために必要なサンプルサイズは、手作業量の増加が不可避である。
関連論文リスト
- The Mirrored Influence Hypothesis: Efficient Data Influence Estimation
by Harnessing Forward Passes [32.11451526104394]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Effect Size Estimation for Duration Recommendation in Online Experiments: Leveraging Hierarchical Models and Objective Utility Approaches [13.504353263032359]
仮定効果サイズ(AES)の選択は、実験の期間を決定的に決定し、その結果、その精度と効率が決定される。
伝統的に、実験者はドメイン知識に基づいてAESを決定するが、この方法は多数の実験を管理するオンライン実験サービスにとって実用的ではない。
オンライン実験サービスにおけるデータ駆動型AES選択のための2つのソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-20T09:34:28Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Fair Effect Attribution in Parallel Online Experiments [57.13281584606437]
A/Bテストは、オンラインサービスで導入された変更の影響を確実に特定する目的で役立ちます。
オンラインプラットフォームでは,ユーザトラフィックをランダムに分割して多数の同時実験を行うのが一般的である。
異なるグループ間の完全なランダム化にもかかわらず、同時実験は互いに相互作用し、平均的な集団の結果に負の影響をもたらす。
論文 参考訳(メタデータ) (2022-10-15T17:15:51Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - Sources of Irreproducibility in Machine Learning: A Review [3.905855359082687]
実験設計の選択と結論に対する潜在的な影響を関連付ける理論的枠組みは存在しない。
本研究の目的は、応用データサイエンスの実践者や研究者が、どのような設計選択が誤った発見につながるかを理解するためのフレームワークを開発することである。
論文 参考訳(メタデータ) (2022-04-15T18:26:03Z) - On the Importance of Data Size in Probing Fine-tuned Models [18.69409646532038]
符号化された言語知識の程度は、微調整サンプルの数に依存することを示す。
我々は、微調整データサイズがモデルの言語知識に対する変更の回復可能性に影響を及ぼす一連の実験を通して示す。
論文 参考訳(メタデータ) (2022-03-17T21:45:17Z) - A Large Scale Benchmark for Individual Treatment Effect Prediction and
Uplift Modeling [7.1736440498963105]
個別治療効果(ITE)予測は、粒度レベルでの行動の因果的影響を説明し、推定することを目的としている。
このトピックの研究を促進するために、いくつかのランダム化制御試験から収集された139万のサンプルの公開コレクションをリリースする。
論文 参考訳(メタデータ) (2021-11-19T09:07:14Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。