論文の概要: Measuring Sentence-Level and Aspect-Level (Un)certainty in Science
Communications
- arxiv url: http://arxiv.org/abs/2109.14776v1
- Date: Thu, 30 Sep 2021 00:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:43:58.960373
- Title: Measuring Sentence-Level and Aspect-Level (Un)certainty in Science
Communications
- Title(参考訳): 科学コミュニケーションにおける文レベルとアスペクトレベル(不確かさ)の測定
- Authors: Jiaxin Pei, David Jurgens
- Abstract要約: 我々は,科学的発見における確実性のレベルと側面の両方をモデル化する新たな確実性の研究を紹介する。
本研究では,事前学習した言語モデルを用いて,全体的確実性と個人的側面の両方を予測可能であることを示す。
- 参考スコア(独自算出の注目度): 9.36599317326032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Certainty and uncertainty are fundamental to science communication. Hedges
have widely been used as proxies for uncertainty. However, certainty is a
complex construct, with authors expressing not only the degree but the type and
aspects of uncertainty in order to give the reader a certain impression of what
is known. Here, we introduce a new study of certainty that models both the
level and the aspects of certainty in scientific findings. Using a new dataset
of 2167 annotated scientific findings, we demonstrate that hedges alone account
for only a partial explanation of certainty. We show that both the overall
certainty and individual aspects can be predicted with pre-trained language
models, providing a more complete picture of the author's intended
communication. Downstream analyses on 431K scientific findings from news and
scientific abstracts demonstrate that modeling sentence-level and aspect-level
certainty is meaningful for areas like science communication. Both the model
and datasets used in this paper are released at
https://blablablab.si.umich.edu/projects/certainty/.
- Abstract(参考訳): 確実性と不確実性は科学コミュニケーションの基本である。
ヘッジは不確実性のプロキシとして広く使われている。
しかし、確実性は複雑な構成であり、著者は、読者に既知の印象を与えるために、程度だけでなく、不確実性のタイプや側面を表現している。
本稿では,科学的発見における確実性のレベルと側面の両方をモデル化する,確実性の新しい研究を紹介する。
2167の注釈付き科学的発見のデータセットを用いて、ヘッジだけでは確実性の部分的な説明しかできないことを示した。
著者の意図したコミュニケーションをより完全な図示として,事前学習した言語モデルを用いて,全体的確実性と個人的側面の両方を予測可能であることを示す。
ニュースや科学の要約による431Kの科学的発見の下流分析は、文レベルのモデリングとアスペクトレベルの確実性は、科学コミュニケーションのような分野において有意義であることを示している。
この論文で使用されるモデルとデータセットはいずれもhttps://blablab.si.umich.edu/projects/certainty/でリリースされています。
関連論文リスト
- Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z) - Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences [3.9985385067438344]
強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。
毎年発行される科学論文の数が指数関数的に増加すると、ある仮説に関連する証拠の手作業による集約と合成は困難である。
我々は,社会科学における研究のコミュニティ主導のアノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。
論文 参考訳(メタデータ) (2023-09-07T04:15:17Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - UnScientify: Detecting Scientific Uncertainty in Scholarly Full Text [5.318135784473086]
UnScientifyは学術的な全文における科学的不確実性を検出するために設計されたインタラクティブシステムである。
このシステムのパイプラインは、パターンマッチング、複雑な文チェック、著者参照チェックの組み合わせを含む。
UnScientifyは、テキストにおける科学的不確実性の特定事例の理解を支援する、解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-07-26T15:04:24Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - SciLander: Mapping the Scientific News Landscape [8.504643390943409]
本稿では,SciLanderについて紹介する。SciLanderは,科学に基づくトピックに関するニュースソースの表現を学習する手法である。
我々は,2020年のパンデミック開始から18ヶ月の期間にわたって,500件の情報源から100万件近いニュース記事を含む,新たな新型コロナウイルスデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-05-16T20:20:43Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。