論文の概要: Probabilistic Reasoning in Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09614v1
- Date: Wed, 14 Feb 2024 23:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:44:00.837825
- Title: Probabilistic Reasoning in Generative Large Language Models
- Title(参考訳): 生成大言語モデルにおける確率的推論
- Authors: Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi
- Abstract要約: 本稿では,Large Language Models (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
本稿では,Pythonのコード,確率的推論アルゴリズム,確率論的論理プログラミングなど,様々な形式的表現に問題をマッピングする戦略を提案する。
- 参考スコア(独自算出の注目度): 21.335836561959887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the challenges that Large Language Models (LLMs) face
when reasoning over text that includes information involving uncertainty
explicitly quantified via probability values. This type of reasoning is
relevant to a variety of contexts ranging from everyday conversations to
medical decision-making. Despite improvements in the mathematical reasoning
capabilities of LLMs, they still exhibit significant difficulties when it comes
to probabilistic reasoning. To deal with this problem, we first introduce the
Bayesian Linguistic Inference Dataset (BLInD), a new dataset specifically
designed to test the probabilistic reasoning capabilities of LLMs. We then
leverage this new dataset to thoroughly illustrate the specific limitations of
LLMs for tasks involving probabilistic reasoning and present several strategies
that map the problem to different formal representations, including Python
code, probabilistic inference algorithms, and probabilistic logical
programming. We conclude by providing an evaluation of our methods on BLInD and
on an adaptation of a causal reasoning question-answering dataset, which
further shows their practical effectiveness.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
この種の推論は、日常的な会話から医学的意思決定まで、さまざまな文脈に関係している。
llmsの数学的推論能力は改善されているものの、確率的推論に関しては非常に困難である。
この問題に対処するために,我々はまず,LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference Dataset(BLInD)を紹介する。
次に、この新たなデータセットを活用して、確率的推論を含むタスクに対するLLMの特定の制限を徹底的に説明し、Pythonコード、確率的推論アルゴリズム、確率論的論理プログラミングなど、問題を異なる形式的表現にマッピングするいくつかの戦略を示す。
結論として,ブラインド法と因果推論質問応答データセットの適応についての評価を行い,その実用性について考察した。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Beyond Probabilities: Unveiling the Misalignment in Evaluating Large
Language Models [27.47466284525851]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な機能を示している。
本研究の目的は,複数選択質問(MCQ)におけるLCMを用いた確率に基づく評価手法の有効性を検討することである。
実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。
論文 参考訳(メタデータ) (2024-02-21T15:58:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Large Language Model for Causal Decision Making [7.052058110182703]
大きな言語モデル(LLM)は、言語理解と一般的なトピックの推論で成功していることを示している。
LLMをLLM4Causalに微調整することで、因果タスクを識別し、対応する関数を実行し、ユーザのクエリと提供されたデータセットに基づいてその数値結果を解釈できる可能性を探る。
論文 参考訳(メタデータ) (2023-12-28T16:59:06Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - dPASP: A Comprehensive Differentiable Probabilistic Answer Set
Programming Environment For Neurosymbolic Learning and Reasoning [0.0]
本稿では,ニューロシンボリック推論のための新しい宣言型論理プログラミングフレームワークdPASPを提案する。
非決定論的・矛盾的・不完全・統計的知識を表現できる確率論的論理プログラムのセマンティクスについて論じる。
次に、いくつかのサンプルプログラムとともに、言語での推論と学習をサポートする実装されたパッケージについて説明する。
論文 参考訳(メタデータ) (2023-08-05T19:36:58Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Symbolic Querying of Vector Spaces: Probabilistic Databases Meets
Relational Embeddings [35.877591735510734]
すべてのクエリが実行される確率的データベースモデルを形式化する。
十分に定義された連立確率分布の欠如は、単純な問合せ問題を証明し難いものにする。
本稿では, トラクタブル確率データベースとして設計したリレーショナル埋め込みモデルTOを紹介する。
論文 参考訳(メタデータ) (2020-02-24T01:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。