論文の概要: Large Language Models: An Applied Econometric Framework
- arxiv url: http://arxiv.org/abs/2412.07031v2
- Date: Fri, 03 Jan 2025 14:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:22.486145
- Title: Large Language Models: An Applied Econometric Framework
- Title(参考訳): 大規模言語モデル: 応用エコノメトリフレームワーク
- Authors: Jens Ludwig, Sendhil Mullainathan, Ashesh Rambachan,
- Abstract要約: 我々はこの問題に答えるための計量的枠組みを開発する。
LLMのトレーニングデータセットと研究者のサンプルの間に「漏れがない」という条件下では、予測問題にLLMを使用することは有効である。
これらの要件は厳密であり、それらが破られると、LLMの制限は信頼できない経験的推定をもたらす。
- 参考スコア(独自算出の注目度): 1.348318541691744
- License:
- Abstract: How can we use the novel capacities of large language models (LLMs) in empirical research? And how can we do so while accounting for their limitations, which are themselves only poorly understood? We develop an econometric framework to answer this question that distinguishes between two types of empirical tasks. Using LLMs for prediction problems (including hypothesis generation) is valid under one condition: no ``leakage'' between the LLM's training dataset and the researcher's sample. No leakage can be ensured by using open-source LLMs with documented training data and published weights. Using LLM outputs for estimation problems to automate the measurement of some economic concept (expressed either by some text or from human subjects) requires the researcher to collect at least some validation data: without such data, the errors of the LLM's automation cannot be assessed and accounted for. As long as these steps are taken, LLM outputs can be used in empirical research with the familiar econometric guarantees we desire. Using two illustrative applications to finance and political economy, we find that these requirements are stringent; when they are violated, the limitations of LLMs now result in unreliable empirical estimates. Our results suggest the excitement around the empirical uses of LLMs is warranted -- they allow researchers to effectively use even small amounts of language data for both prediction and estimation -- but only with these safeguards in place.
- Abstract(参考訳): 大規模言語モデル(LLM)の新たな能力を実証研究に活用するにはどうすればよいのか?
そして、その制限を考慮に入れながら、どうやってそうできるでしょうか。
本研究では,2種類の経験的タスクを区別する,この問いに答えるための計量的枠組みを開発する。
LLMのトレーニングデータセットと研究者のサンプルの間に'leakage'がないという条件下では、予測問題(仮説生成を含む)にLLMを使用することは有効である。
ドキュメント化されたトレーニングデータと公開された重みを持つオープンソースのLLMを使用することで、リークを保証することはできない。
LLMの出力を推定問題に使用して、ある経済概念(あるテキストまたは人から表される)を自動で測定するために、研究者は少なくともいくつかの検証データを収集する必要がある。
これらのステップを踏む限り、LSM出力は私たちが望むよく知られた計量的保証による経験的な研究に利用することができる。
金融と政治経済に2つの実証的な応用を用いて、これらの要件は厳格であり、それらが破られた場合、LLMの限界は信頼できない経験的見積もりをもたらす。
LLMの実証的な使用に関する興奮は保証されており、研究者は予測と推定の両方に少量の言語データを効果的に利用することができます。
関連論文リスト
- Simulating Tabular Datasets through LLMs to Rapidly Explore Hypotheses about Real-World Entities [9.235910374587734]
本稿では, コンクリート構造物の特性評価にLCMを適用することにより, 仮説の素早いプロトタイプ化の可能性について検討する。
目標は、人間と機械のコラボレーションを通じて、仮説をもっと早く解釈できるようにすることだ。
論文 参考訳(メタデータ) (2024-11-27T05:48:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Insights from Social Shaping Theory: The Appropriation of Large Language Models in an Undergraduate Programming Course [0.9718746651638346]
大規模言語モデル(LLM)は、コードを生成、デバッグ、説明することができる。
本研究は,学生の社会的知覚が自身のLLM利用にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-06-10T16:40:14Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Prevalence and prevention of large language model use in crowd work [11.554258761785512]
大規模言語モデル (LLM) の使用は, 集団作業者の間で広く普及していることを示す。
目標緩和戦略は, LLM の使用量を大幅に削減するが, 排除はしない。
論文 参考訳(メタデータ) (2023-10-24T09:52:09Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。