論文の概要: ThinkSum: Probabilistic reasoning over sets using large language models
- arxiv url: http://arxiv.org/abs/2210.01293v1
- Date: Tue, 4 Oct 2022 00:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:17:05.965143
- Title: ThinkSum: Probabilistic reasoning over sets using large language models
- Title(参考訳): ThinkSum: 大きな言語モデルを用いた集合上の確率論的推論
- Authors: Batu Ozturkler, Nikolay Malkin, Zhen Wang, Nebojsa Jojic
- Abstract要約: 本稿では,2段階の確率論的推論パラダイムであるThinkSumを提案する。
評価タスクのBIG-benchスイート上でThinkSumの利点を実証する。
- 参考スコア(独自算出の注目度): 18.123895485602244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have a substantial capacity for high-level
analogical reasoning: reproducing patterns in linear text that occur in their
training data (zero-shot evaluation) or in the provided context (few-shot
in-context learning). However, recent studies show that even the largest LLMs
fail in scenarios that require reasoning over multiple objects or facts or
making sequences of logical deductions. We propose a two-stage probabilistic
inference paradigm, ThinkSum, that reasons over sets of objects or facts in a
structured manner. In the first stage (Think -- 'fast' retrieval of
associations), a LLM is queried in parallel over a set of phrases extracted
from the prompt or an auxiliary model call. In the second stage (Sum -- 'slow'
probabilistic inference or reasoning), the results of these queries are
aggregated to make the final prediction. We demonstrate the advantages of
ThinkSum on the BIG-bench suite of evaluation tasks, achieving improvements
over the state of the art using GPT-family models on ten difficult tasks, often
with far smaller model variants. We compare and contrast ThinkSum with other
proposed modifications to direct prompting of LLMs, such as variants of
chain-of-thought prompting. We argue that because the probabilistic inference
in ThinkSum is performed outside of calls to the LLM, ThinkSum is less
sensitive to prompt design, yields more interpretable predictions, and can be
flexibly combined with latent variable models to extract structured knowledge
from LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、トレーニングデータ(ゼロショット評価)や提供されたコンテキスト(フェウショットインコンテキスト学習)で発生する線形テキストでパターンを再現する、ハイレベルなアナロジー推論にかなりの能力を持っている。
しかし、最近の研究では、最も大きなLCMでさえ、複数の対象や事実を推論したり、論理的推論のシーケンスを作成する必要のあるシナリオで失敗することを示している。
本稿では,2段階の確率論的推論パラダイムであるThinkSumを提案する。
第1段(Think -- 'fast' search of associations)では、プロンプトまたは補助モデルコールから抽出されたフレーズのセットに対してLCMを並列にクエリする。第2段(Sum -- 'slow' probabilistic inference or reasoning)では、これらのクエリの結果を集約して最終的な予測を行う。
我々は,評価タスクのビッグベンチスイートにおけるthinksumの利点を実証し,gptファミリーモデルを用いた10の難しいタスクにおいて,より小さなモデル変種を用いた場合が多い技術の改善を実現した。
我々はThinkSumとLLMの直接的プロンプトのための他の修正、例えばチェーン・オブ・シント・プロンプトの変種を比較して比較する。
我々は、ThinkSumの確率論的推論はLLMの呼び出しの外で実行されるため、ThinkSumは設計の迅速化にはあまり敏感ではなく、より解釈可能な予測が得られ、LLMから構造化知識を抽出するために、潜在変数モデルと柔軟に組み合わせることができると論じる。
関連論文リスト
- Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。
本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:19:11Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Probabilistic Reasoning in Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-02-14T23:05:44Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。