論文の概要: Every Answer Matters: Evaluating Commonsense with Probabilistic Measures
- arxiv url: http://arxiv.org/abs/2406.04145v1
- Date: Thu, 6 Jun 2024 15:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:20:13.591979
- Title: Every Answer Matters: Evaluating Commonsense with Probabilistic Measures
- Title(参考訳): 答えのすべて:確率的対策による常識の評価
- Authors: Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O'Gorman, Nalini Singh, Andrew McCallum, Xiang Lorraine Li,
- Abstract要約: 我々は,複数世代にわたるオープンエンド世代を通して,共通感覚を評価する新しい生成タスクを提案する。
また,人間の判断と強く相関する確率的評価法を提案する。
- 参考スコア(独自算出の注目度): 37.7734450648112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated impressive performance on commonsense tasks; however, these tasks are often posed as multiple-choice questions, allowing models to exploit systematic biases. Commonsense is also inherently probabilistic with multiple correct answers. The purpose of "boiling water" could be making tea and cooking, but it also could be killing germs. Existing tasks do not capture the probabilistic nature of common sense. To this end, we present commonsense frame completion (CFC), a new generative task that evaluates common sense via multiple open-ended generations. We also propose a method of probabilistic evaluation that strongly correlates with human judgments. Humans drastically outperform strong language model baselines on our dataset, indicating this approach is both a challenging and useful evaluation of machine common sense.
- Abstract(参考訳): 大規模な言語モデルは、コモンセンスタスクにおいて印象的なパフォーマンスを示してきたが、これらのタスクは、しばしば複数の選択の質問として提示され、モデルが体系的なバイアスを活用できる。
Commonsenseは本質的には確率的であり、複数の正しい答えがある。
沸騰する水」の目的は、茶と料理を作ることであったが、菌類を殺すこともできた。
既存のタスクは、常識の確率的性質を捉えない。
この目的のために、複数のオープンエンド世代を通して常識を評価する新しい生成タスクであるCommonsense frame completion (CFC)を提案する。
また,人間の判断と強く相関する確率的評価法を提案する。
人間はデータセット上で強い言語モデルベースラインを大幅に上回り、このアプローチは、マシンの常識を困難かつ有用な評価であることを示している。
関連論文リスト
- UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Logic, Probability and Action: A Situation Calculus Perspective [12.47276164048813]
論理と確率の統一は、AIにおける長年の関心事である。
現状計算における論理・確率・行動の統合に関する最近の結果について考察する。
結果は認知ロボティクスの文脈で動機づけられる。
論文 参考訳(メタデータ) (2020-06-17T13:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。