Fugu-MT 論文翻訳(概要): Large Language Models: An Applied Econometric Framework

論文の概要: Large Language Models: An Applied Econometric Framework

arxiv url: http://arxiv.org/abs/2412.07031v1
Date: Mon, 09 Dec 2024 22:37:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.156305
Title: Large Language Models: An Applied Econometric Framework
Title（参考訳）: 大規模言語モデル: 応用エコノメトリフレームワーク
Authors: Jens Ludwig, Sendhil Mullainathan, Ashesh Rambachan,
Abstract要約: 大規模言語モデル(LLM)は、予測の作成、テキストのラベル付け、人間の反応のシミュレート、仮説の生成、さらにはそのようなデータが存在しない時間や場所のデータ生成など、経済学研究で使われている。我々はこの問題に答えるための計量的枠組みを開発する。
参考スコア（独自算出の注目度）: 1.348318541691744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are being used in economics research to form predictions, label text, simulate human responses, generate hypotheses, and even produce data for times and places where such data don't exist. While these uses are creative, are they valid? When can we abstract away from the inner workings of an LLM and simply rely on their outputs? We develop an econometric framework to answer this question. Our framework distinguishes between two types of empirical tasks. Using LLM outputs for prediction problems (including hypothesis generation) is valid under one condition: no "leakage" between the LLM's training dataset and the researcher's sample. Using LLM outputs for estimation problems to automate the measurement of some economic concept (expressed by some text or from human subjects) requires an additional assumption: LLM outputs must be as good as the gold standard measurements they replace. Otherwise estimates can be biased, even if LLM outputs are highly accurate but not perfectly so. We document the extent to which these conditions are violated and the implications for research findings in illustrative applications to finance and political economy. We also provide guidance to empirical researchers. The only way to ensure no training leakage is to use open-source LLMs with documented training data and published weights. The only way to deal with LLM measurement error is to collect validation data and model the error structure. A corollary is that if such conditions can't be met for a candidate LLM application, our strong advice is: don't.
Abstract（参考訳）: 大規模言語モデル(LLM)は、予測の作成、テキストのラベル付け、人間の反応のシミュレート、仮説の生成、さらにはそのようなデータが存在しない時間や場所のデータ生成など、経済学研究で使われている。これらはクリエイティブな使い方ですが、有効でしょうか? LLMの内部の作業から抽象化して、単にアウトプットに依存することはいつ可能でしょうか? 我々はこの問題に答えるための計量的枠組みを開発する。我々のフレームワークは2種類の経験的タスクを区別する。 LLMの出力を予測問題(仮説生成を含む)に使用することは、1つの条件下で有効である: LLMのトレーニングデータセットと研究者のサンプルの間に「推論」は存在しない。 LLM出力を推定問題に使用して、いくつかの経済概念(一部のテキストまたは人から表される)の計測を自動化するには、追加の仮定が必要である。 LLMの出力は極めて正確だが、完全にはそうではない。我々は、これらの条件が違反する範囲と、金融・政治経済への実証的な応用における研究結果への含意について述べる。また、実証研究者への指導も行っている。トレーニングリークを確実にする唯一の方法は、ドキュメント化されたトレーニングデータと公開されたウェイトを備えたオープンソースのLLMを使用することだ。 LLM測定誤差を扱う唯一の方法は、検証データを収集し、エラー構造をモデル化することである。結論として、もしそのような条件が候補のLLMアプリケーションで満たされないのであれば、私たちの強いアドバイスは次のとおりである。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
Simulating Tabular Datasets through LLMs to Rapidly Explore Hypotheses about Real-World Entities [9.235910374587734]
本稿では, コンクリート構造物の特性評価にLCMを適用することにより, 仮説の素早いプロトタイプ化の可能性について検討する。目標は、人間と機械のコラボレーションを通じて、仮説をもっと早く解釈できるようにすることだ。
論文参考訳（メタデータ） (2024-11-27T05:48:44Z)
LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help? [20.998805709422292]
テストコレクションは、研究者が素早く簡単にランキングアルゴリズムを評価することができる情報検索ツールである。より安価な代替手段として、近年の研究では、人間のアセスメントを完全に置き換えるために大きな言語モデル(LLM)が提案されている。 LARAは、手動アノテーションとLLMアノテーションのバランスをとる効果的な方法であり、低予算でもリッチで信頼性の高いテストコレクションを構築するのに役立つ。
論文参考訳（メタデータ） (2024-11-11T11:17:35Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Insights from Social Shaping Theory: The Appropriation of Large Language Models in an Undergraduate Programming Course [0.9718746651638346]
大規模言語モデル(LLM)は、コードを生成、デバッグ、説明することができる。本研究は,学生の社会的知覚が自身のLLM利用にどのように影響するかを考察する。
論文参考訳（メタデータ） (2024-06-10T16:40:14Z)
$\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文参考訳（メタデータ） (2024-03-27T08:08:00Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Prevalence and prevention of large language model use in crowd work [11.554258761785512]
大規模言語モデル (LLM) の使用は, 集団作業者の間で広く普及していることを示す。目標緩和戦略は, LLM の使用量を大幅に削減するが, 排除はしない。
論文参考訳（メタデータ） (2023-10-24T09:52:09Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文参考訳（メタデータ） (2023-05-15T15:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。