論文の概要: Are Large Language Models the future crowd workers of Linguistics?
- arxiv url: http://arxiv.org/abs/2502.10266v1
- Date: Fri, 14 Feb 2025 16:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:53.089689
- Title: Are Large Language Models the future crowd workers of Linguistics?
- Title(参考訳): 大規模言語モデルは将来の言語学者の群集労働者か?
- Authors: Iris Ferrazzo,
- Abstract要約: 本研究の目的は,Large Language Models (LLM) が経験的言語パイプラインに含まれる場合,障害を克服できるかどうか,という疑問に答えることである。
元々は人間の被験者のために設計された2つの強制的誘発タスクは、OpenAIのGPT-4o-miniモデルの助けを借りて再現される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Data elicitation from human participants is one of the core data collection strategies used in empirical linguistic research. The amount of participants in such studies may vary considerably, ranging from a handful to crowdsourcing dimensions. Even if they provide resourceful extensive data, both of these settings come alongside many disadvantages, such as low control of participants' attention during task completion, precarious working conditions in crowdsourcing environments, and time-consuming experimental designs. For these reasons, this research aims to answer the question of whether Large Language Models (LLMs) may overcome those obstacles if included in empirical linguistic pipelines. Two reproduction case studies are conducted to gain clarity into this matter: Cruz (2023) and Lombard et al. (2021). The two forced elicitation tasks, originally designed for human participants, are reproduced in the proposed framework with the help of OpenAI's GPT-4o-mini model. Its performance with our zero-shot prompting baseline shows the effectiveness and high versatility of LLMs, that tend to outperform human informants in linguistic tasks. The findings of the second replication further highlight the need to explore additional prompting techniques, such as Chain-of-Thought (CoT) prompting, which, in a second follow-up experiment, demonstrates higher alignment to human performance on both critical and filler items. Given the limited scale of this study, it is worthwhile to further explore the performance of LLMs in empirical Linguistics and in other future applications in the humanities.
- Abstract(参考訳): 人間の参加者からのデータ収集は、経験言語研究で使用される中心的なデータ収集戦略の1つである。
このような研究の参加者の数は、ほんの一握りからクラウドソーシングまで様々である。
リソースが豊富な広範なデータを提供しても、これらの設定には、タスク完了時の参加者の注意の制御の低さ、クラウドソーシング環境における不安定な作業条件、時間を要する実験的な設計など、多くの欠点が伴う。
これらの理由から、実験的な言語パイプラインに含まれる場合、LLM(Large Language Models)がこれらの障害を克服できるかどうかという疑問に答えることを目的としている。
2つの再現ケーススタディにより、Cruz (2023) と Lombard et al (2021) が明らかにされた。
この2つの強制勧誘作業は,OpenAIのGPT-4o-miniモデルを用いて提案したフレームワークで再現されている。
ゼロショットプロンプトベースラインによる性能は,LLMの有効性と汎用性を示している。
第2の複製の結果は、第2のフォローアップ実験では、クリティカルアイテムとフィラーアイテムの両方で人間のパフォーマンスにより高いアライメントを示す、Chain-of-Thought(CoT)プロンプトなど、追加のプロンプト技術を検討する必要性をさらに強調している。
この研究の規模が限られていることを考えると、経験言語学におけるLLMのパフォーマンスや、人文科学におけるその他の将来的な応用について、さらに検討する価値がある。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - 'Simulacrum of Stories': Examining Large Language Models as Qualitative Research Participants [13.693069737188859]
生産モデルに関する最近の興奮は、研究開発における人間の参加と労働の置き換えを示唆する提案の波を引き起こしている。
我々は,このパラダイムシフトの視点を理解するために,19人の定性的な研究者にインタビューを行った。
論文 参考訳(メタデータ) (2024-09-28T18:28:47Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Supporting Human-AI Collaboration in Auditing LLMs with LLMs [33.56822240549913]
大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。
これらの言語モデルを厳格に監査することは重要である。
既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
論文 参考訳(メタデータ) (2023-04-19T21:59:04Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。