Fugu-MT 論文翻訳(概要): What Are the Odds? Language Models Are Capable of Probabilistic Reasoning

論文の概要: What Are the Odds? Language Models Are Capable of Probabilistic Reasoning

arxiv url: http://arxiv.org/abs/2406.12830v3
Date: Mon, 30 Sep 2024 11:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 09:39:20.425013
Title: What Are the Odds? Language Models Are Capable of Probabilistic Reasoning
Title（参考訳）: 言語モデルは確率論的推論が可能に
Authors: Akshay Paruchuri, Jake Garrison, Shun Liao, John Hernandez, Jacob Sunshine, Tim Althoff, Xin Liu, Daniel McDuff,
Abstract要約: 本稿では,言語モデル(LM)の確率論的推論能力を,理想化および実世界の統計分布を用いて評価することに集中する。本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。
参考スコア（独自算出の注目度）: 23.487484744911995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LM) are capable of remarkably complex linguistic tasks; however, numerical reasoning is an area in which they frequently struggle. An important but rarely evaluated form of reasoning is understanding probability distributions. In this paper, we focus on evaluating the probabilistic reasoning capabilities of LMs using idealized and real-world statistical distributions. We perform a systematic evaluation of state-of-the-art LMs on three tasks: estimating percentiles, drawing samples, and calculating probabilities. We evaluate three ways to provide context to LMs 1) anchoring examples from within a distribution or family of distributions, 2) real-world context, 3) summary statistics on which to base a Normal approximation. Models can make inferences about distributions, and can be further aided by the incorporation of real-world context, example shots and simplified assumptions, even if these assumptions are incorrect or misspecified. To conduct this work, we developed a comprehensive benchmark distribution dataset with associated question-answer pairs that we have released publicly.
Abstract（参考訳）: 言語モデル (LM) は極めて複雑な言語処理を行うことができるが、数値推論はそれらがしばしば苦労する分野である。推論の重要であるが稀に評価される形式は確率分布の理解である。本稿では,理想化および実世界の統計分布を用いたLMの確率論的推論能力の評価に焦点をあてる。本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。 LMにコンテキストを提供する3つの方法を評価する。 1) 配当又は配当系統の例を固定すること。 2)現実世界の文脈。 3) 正規近似を基礎とする統計の要約。モデルは分布に関する推論を行うことができ、たとえこれらの仮定が間違っていたり間違っていたとしても、実世界の文脈、例えばショットや単純化された仮定を組み込むことによってさらに助けられる。そこで我々は,これまでに公開してきた質問応答ペアを用いた総合的なベンチマーク分布データセットを開発した。

関連論文リスト

Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文参考訳（メタデータ） (2025-03-14T20:54:27Z)
Towards Understanding Extrapolation: a Causal Lens [53.15488984371969]
我々は、外挿がいつ可能かを理論的に理解し、それを実現するための原則的な方法を提供する。この定式化の下では、外挿問題を潜在変数識別問題にキャストする。この理論は、基礎となる多様体の滑らかさとシフト特性の間の複雑な相互作用を明らかにする。
論文参考訳（メタデータ） (2025-01-15T21:29:29Z)
Benchmarking Distributional Alignment of Large Language Models [43.0198231524816]
言語モデル(LM)は、人々のシミュラクラ(simulacra)として使われることが多いが、特定の人口集団の視点の分布と一致する能力は、いまだに不明である。我々は、政治的価値を超えて拡張されたデータセットを構築し、このタスクのための人間のベースラインを作成し、LMが特定のグループの意見分布とどの程度一致できるかを評価する。本分析により, ALMが人体をシミュレートするかどうか, どのように利用できるか, およびLCMがそのような分布をシミュレートするよりも, より正確に意見分布を記述できるのかが明らかとなった。
論文参考訳（メタデータ） (2024-11-08T08:41:17Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
Domain Generalization with Small Data [27.040070085669086]
我々は,各データポイントを確率的埋め込みにマッピングすることで,確率的フレームワークに基づくドメイン不変表現を学習する。提案手法は,分布上のテクスト分布の測定値(大域的視点アライメント)と分布に基づくコントラスト的セマンティックアライメント(コントラスト的セマンティックアライメント)を結合することができる。
論文参考訳（メタデータ） (2024-02-09T02:59:08Z)
Numerically assisted determination of local models in network scenarios [55.2480439325792]
統計的振る舞いを再現する明示的な局所モデルを見つけるための数値ツールを開発する。グリーンベルガー・ホルン・ザイリンガー(GHZ)およびW分布の臨界振動性に関する予想を提供する。開発されたコードとドキュメントは、281.com/mariofilho/localmodelsで公開されている。
論文参考訳（メタデータ） (2023-03-17T13:24:04Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
A Brief Introduction to Generative Models [8.031257560764336]
我々は、機械学習の中心課題として生成モデリングを導入し、動機づける。 KL-発散の最小化としてどのように解釈できるかを概説する。本稿では,推定分布と実データ分布の差異を考察する代替逆アプローチを検討する。
論文参考訳（メタデータ） (2021-02-27T16:49:41Z)
Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。 Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2020-07-24T05:18:17Z)
Contextuality scenarios arising from networks of stochastic processes [68.8204255655161]
経験的モデルは、その分布が X 上の合同分布を極小化することができなければ文脈的と言える。我々は、多くのプロセス間の相互作用という、文脈的経験的モデルの異なる古典的な源泉を示す。長期にわたるネットワークの統計的挙動は、経験的モデルを一般的な文脈的かつ強い文脈的にする。
論文参考訳（メタデータ） (2020-06-22T16:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。