論文の概要: QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios
- arxiv url: http://arxiv.org/abs/2410.10449v1
- Date: Mon, 14 Oct 2024 12:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:34:52.248376
- Title: QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios
- Title(参考訳): QUITE:ベイジアン推論シナリオにおける自然言語テキストの不確かさの定量化
- Authors: Timo Pierre Schrader, Lukas Lange, Simon Razniewski, Annemarie Friedrich,
- Abstract要約: 本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
- 参考スコア(独自算出の注目度): 15.193544498311603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning is key to many decision making processes. It requires consolidating a set of rule-like premises that are often associated with degrees of uncertainty and observations to draw conclusions. In this work, we address both the case where premises are specified as numeric probabilistic rules and situations in which humans state their estimates using words expressing degrees of certainty. Existing probabilistic reasoning datasets simplify the task, e.g., by requiring the model to only rank textual alternatives, by including only binary random variables, or by making use of a limited set of templates that result in less varied text. In this work, we present QUITE, a question answering dataset of real-world Bayesian reasoning scenarios with categorical random variables and complex relationships. QUITE provides high-quality natural language verbalizations of premises together with evidence statements and expects the answer to a question in the form of an estimated probability. We conduct an extensive set of experiments, finding that logic-based models outperform out-of-the-box large language models on all reasoning types (causal, evidential, and explaining-away). Our results provide evidence that neuro-symbolic models are a promising direction for improving complex reasoning. We release QUITE and code for training and experiments on Github.
- Abstract(参考訳): 推論は多くの意思決定プロセスの鍵です。
結論を引き出すには、しばしば不確実性や観察の度合いと関連づけられる一連のルールのような前提を統合する必要がある。
本研究では,前提条件が数値確率規則として規定されている場合と,確度を表現した単語を用いて人間が見積を述べる場合の両方に対処する。
既存の確率論的推論データセットは、例えば、バイナリランダム変数のみを含むことによって、モデルにテキスト代替品のランク付けを要求したり、より少ないテキストをもたらす限られたテンプレートセットを使用することで、タスクを単純化する。
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオの問合せデータセットであるQUITEを提案する。
QUITEは、エビデンスステートメントとともに、前提の高品質な自然言語の言語化を提供し、推定確率の形で質問に対する答えを期待する。
論理ベースのモデルは、すべての推論型(因果関係、明解性、説明責任)において、アウト・オブ・ボックスの大きい言語モデルよりも優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
トレーニングと実験のためのQUITEとコードをGithubでリリースしています。
関連論文リスト
- Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - How often are errors in natural language reasoning due to paraphrastic variability? [29.079188032623605]
本稿では,自然言語推論モデルのパラフラスティック一貫性を評価するための指標を提案する。
我々は、この計量をパラフレーズ化に起因するモデルの正しさの分散の比率に数学的に結合する。
そこで我々は,7,782人の人間による記述・検証された推論問題のデータセットであるParaNLUを収集した。
論文 参考訳(メタデータ) (2024-04-17T20:11:32Z) - Can NLP Models Correctly Reason Over Contexts that Break the Common
Assumptions? [14.991565484636745]
我々は,NLPモデルが一般的な仮定を破る文脈を正しく推論する能力について検討する。
一般的な仮定に従うコンテキストでかなりうまく機能する一方で、モデルはこれらの仮定を破るコンテキストに対して正しく推論するのに苦労しています。
具体的には、パフォーマンスギャップは20%の絶対点である。
論文 参考訳(メタデータ) (2023-05-20T05:20:37Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - On the Paradox of Learning to Reason from Data [86.13662838603761]
BERTは,同じ問題空間上での他のデータ分布への一般化に失敗しながら,分布内テスト例に対してほぼ完全な精度が得られることを示す。
このパラドックスは、正しい推論関数をエミュレートする学習ではなく、論理的推論問題に本質的に存在する統計的特徴を実際に学習している。
論文 参考訳(メタデータ) (2022-05-23T17:56:48Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。