論文の概要: ThinkSum: Probabilistic reasoning over sets using large language models
- arxiv url: http://arxiv.org/abs/2210.01293v2
- Date: Fri, 2 Jun 2023 17:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:59:23.929221
- Title: ThinkSum: Probabilistic reasoning over sets using large language models
- Title(参考訳): ThinkSum: 大きな言語モデルを用いた集合上の確率論的推論
- Authors: Batu Ozturkler, Nikolay Malkin, Zhen Wang, Nebojsa Jojic
- Abstract要約: 本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
- 参考スコア(独自算出の注目度): 18.123895485602244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have a substantial capacity for high-level
analogical reasoning: reproducing patterns in linear text that occur in their
training data (zero-shot evaluation) or in the provided context (few-shot
in-context learning). However, recent studies show that even the more advanced
LLMs fail in scenarios that require reasoning over multiple objects or facts
and making sequences of logical deductions. We propose a two-stage
probabilistic inference paradigm, ThinkSum, which reasons over sets of objects
or facts in a structured manner. In the first stage (Think - retrieval of
associations), a LLM is queried in parallel over a set of phrases extracted
from the prompt or an auxiliary model call. In the second stage (Sum -
probabilistic inference or reasoning), the results of these queries are
aggregated to make the final prediction. We demonstrate the possibilities and
advantages of ThinkSum on the BIG-bench suite of LLM evaluation tasks,
achieving improvements over the state of the art using GPT-family models on
thirteen difficult tasks, often with far smaller model variants. We also
compare and contrast ThinkSum with other proposed modifications to direct
prompting of LLMs, such as variants of chain-of-thought prompting. Our results
suggest that because the probabilistic inference in ThinkSum is performed
outside of calls to the LLM, ThinkSum is less sensitive to prompt design,
yields more interpretable predictions, and can be flexibly combined with latent
variable models to extract structured knowledge from LLMs. Overall, our
proposed paradigm represents a promising approach for enhancing the reasoning
capabilities of LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、トレーニングデータ(ゼロショット評価)や提供されたコンテキスト(フェウショットインコンテキスト学習)で発生する線形テキストでパターンを再現する、ハイレベルなアナロジー推論にかなりの能力を持っている。
しかし、最近の研究では、より先進的なLSMでさえ、複数のオブジェクトや事実を推論し、論理的推論のシーケンスを作成する必要があるシナリオで失敗することを示している。
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
第1段階(連想の検索)では、プロンプトまたは補助モデル呼び出しから抽出された一連のフレーズに対して、llmが並列にクエリされる。
第2段階(確率的推論または推論)では、これらのクエリの結果を集約して最終的な予測を行う。
我々は,LLM評価タスクのBIG-benchスイートにおけるThinkSumの可能性とメリットを実証し,13の困難なタスクにおいて,GPT- familyモデルを用いて,より小さなモデル変種を伴って,技術状況の改善を実現する。
また、ThinkSumとLLMの直接的プロンプトのための他の修正、例えばチェーン・オブ・シント・プロンプトの変種を比較して比較する。
その結果,ThinkSum の確率的推論は LLM の呼び出し外で行われるため,設計の迅速化にはあまり敏感ではなく,より解釈可能な予測が得られ,潜在変数モデルと柔軟に組み合わせて LLM から構造化知識を抽出できることが示唆された。
提案するパラダイムは,LLMの推論能力を高めるための有望なアプローチである。
関連論文リスト
- Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。
本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:19:11Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Probabilistic Reasoning in Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-02-14T23:05:44Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。