論文の概要: RiddleSense: Answering Riddle Questions as Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2101.00376v1
- Date: Sat, 2 Jan 2021 05:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:37:05.670095
- Title: RiddleSense: Answering Riddle Questions as Commonsense Reasoning
- Title(参考訳): riddlesense: 常識的推論としての謎の質問に答える
- Authors: Bill Yuchen Lin, Ziyi Wu, Yichi Yang, Dong-Ho Lee, Xiang Ren
- Abstract要約: RiddleSenseは、高階コモンセンス推論モデルをベンチマークするための新しい複数選択質問回答チャレンジである。
riddlesenseは、リドルスタイルのコモンセンス質問応答のための、最初の大規模なデータセットである。
我々は,様々な推論モデルを体系的に評価し,最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した。
- 参考スコア(独自算出の注目度): 35.574564653690594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A riddle is a mystifying, puzzling question about everyday concepts. For
example, the riddle "I have five fingers but I am not alive. What am I?" asks
about the concept of a glove. Solving riddles is a challenging cognitive
process for humans, in that it requires complex commonsense reasoning abilities
and an understanding of figurative language. However, there are currently no
commonsense reasoning datasets that test these abilities. We propose
RiddleSense, a novel multiple-choice question answering challenge for
benchmarking higher-order commonsense reasoning models, which is the first
large dataset for riddle-style commonsense question answering, where the
distractors are crowdsourced from human annotators. We systematically evaluate
a wide range of reasoning models over it and point out that there is a large
gap between the best-supervised model and human performance -- pointing to
interesting future research for higher-order commonsense reasoning and
computational creativity.
- Abstract(参考訳): 謎めいた、毎日のコンセプトに関する謎めいた疑問です。
例えば「私は5本の指を持っているが、私は生きているわけではない。
私は何者ですか?
手袋の概念について尋ねます
謎を解くことは人間にとって困難な認知プロセスであり、複雑なコモンセンス推論能力と図形言語を理解する必要がある。
しかしながら、これらの能力をテストするコモンセンス推論データセットは今のところ存在しない。
我々は,高階のコモンセンス推論モデルのベンチマークを行うための,新しいマルチチョイス質問応答チャレンジであるRiddleSenseを提案し,人間のアノテーションからイントラクタをクラウドソーシングする,リグルスタイルのコモンセンス質問応答のための最初の大規模データセットである。
体系的に様々な推論モデルを評価し、最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した上で、高次常識推論と計算創造性に関する興味深い研究を指摘した。
関連論文リスト
- Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models [25.732397636695882]
我々は騎士とナイフパズルの原理に基づく仮定推論のベンチマークである$textitTruthQuest$を紹介した。
評価の結果、Llama 3やMixtral-8x7Bのような大規模言語モデルはこれらのタスクを解くのにかなりの困難を呈している。
論文 参考訳(メタデータ) (2024-06-18T12:24:22Z) - Missed Connections: Lateral Thinking Puzzles for Large Language Models [2.1374208474242815]
ニューヨーク・タイムズが毎日発行するコネクショニオンパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。
自動AIシステムがConnectionsをプレイする能力について検討し、抽象的推論のための自動ベンチマークとしてゲームの可能性を探る。
論文 参考訳(メタデータ) (2024-04-17T20:31:05Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Open-ended Commonsense Reasoning with Unrestricted Answer Scope [47.14397700770702]
Open-ended Commonsense Reasoning は、1) 回答候補の短いリスト、2) 事前定義された回答スコープを提供することなく、Commonsenseの問題を解決するものとして定義される。
本研究では,事前学習した言語モデルを用いて,外部知識に基づく推論経路を反復的に検索する。
推論パスは、常識的な質問に対する最も正確な答えを特定するのに役立つ。
論文 参考訳(メタデータ) (2023-10-18T02:45:54Z) - CC-Riddle: A Question Answering Dataset of Chinese Character Riddles [51.41044750575767]
漢字のリドルは、中国語特有の文化芸能の一形態である。
CC-Riddle という名前の textbf Chinese textbfCharacter riddle データセットを構築した。
論文 参考訳(メタデータ) (2022-06-28T06:23:13Z) - BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles [82.63394952538292]
バイリンガル質問応答データセットであるBiRdQAを導入する。
既存のモノリンガルQAモデルとマルチリンガルQAモデルは、我々のデータセットではうまく機能せず、機械が難解な謎を解くために人間を倒すには長い道のりがあることを示している。
論文 参考訳(メタデータ) (2021-09-23T00:46:47Z) - Differentiable Open-Ended Commonsense Reasoning [80.94997942571838]
我々は、自然言語で書かれたコモンセンス事実のコーパスのみを資源として、オープンエンドコモンセンス推論(OpenCSR)について研究する。
OpenCSRへのアプローチとして、知識ファクトに対するマルチホップ推論のための効率的な微分可能なモデルDrFactを提案する。
論文 参考訳(メタデータ) (2020-10-24T10:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。