論文の概要: SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- arxiv url: http://arxiv.org/abs/2404.16068v1
- Date: Mon, 22 Apr 2024 07:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:22:04.761051
- Title: SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- Title(参考訳): SemEval-2024 Task 9: BRAINTEASER: Common Senseを定義した新しいタスク
- Authors: Yifan Jiang, Filip Ilievski, Kaixin Ma,
- Abstract要約: SemEval Task 9: BRAIN-TEASER(S)は、システムの推論と横方向の思考能力をテストするために設計された、このコンペティションにおける最初のタスクである。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
- 参考スコア(独自算出の注目度): 15.95314613982879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vertical thinking relies on logical and commonsense reasoning, lateral thinking requires systems to defy commonsense associations and overwrite them through unconventional thinking. Lateral thinking has been shown to be challenging for current models but has received little attention. A recent benchmark, BRAINTEASER, aims to evaluate current models' lateral thinking ability in a zero-shot setting. In this paper, we split the original benchmark to also support fine-tuning setting and present SemEval Task 9: BRAIN-TEASER(S), the first task at this competition designed to test the system's reasoning and lateral thinking ability. As a popular task, BRAINTEASER(S)'s two subtasks receive 483 team submissions from 182 participants during the competition. This paper provides a fine-grained system analysis of the competition results, together with a reflection on what this means for the ability of the systems to reason laterally. We hope that the BRAINTEASER(S) subtasks and findings in this paper can stimulate future work on lateral thinking and robust reasoning by computational models.
- Abstract(参考訳): 垂直的思考は論理的・常識的推論に依存しているのに対し、横的思考はコモンセンス的関係を否定し、非伝統的な思考を通じてそれらを上書きするシステムを必要とする。
横方向の思考は現在のモデルでは難しいことが示されているが、ほとんど注目されていない。
最近のベンチマークであるBRAINTEASERは、ゼロショット設定で現在のモデルの横方向の思考能力を評価することを目的としている。
本稿では,従来のベンチマークを分割して微調整設定をサポートし,SemEval Task 9: BRAIN-TEASER(S)を提示する。
一般的なタスクとして、BRAINTEASER(S)の2つのサブタスクは、競技中に182人の参加者から483人のチームからの応募を受け取っている。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
本論文のBRAINTEASER(S)サブタスクと発見は、計算モデルによる横方向の思考と頑健な推論に関する今後の研究を促進することを期待する。
関連論文リスト
- Visual Agents as Fast and Slow Thinkers [88.6691504568041]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers [11.819814280565142]
本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:50:51Z) - AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles [1.9939549451457024]
本稿では,SemEval-2024タスク9コンペティションへの提案の概要を述べる。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
トップパフォーマンスのアプローチは、競争のリーダーボード上での競争的なポジションを確保しました。
論文 参考訳(メタデータ) (2024-04-01T12:27:55Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z) - NeurIPS 2020 EfficientQA Competition: Systems, Analyses and Lessons
Learned [122.429985063391]
我々はNeurIPS 2020のEfficientQAコンペティションのモチベーションと組織について述べる。
コンペでは、システムは自然言語質問を入力として受け取り、自然言語応答を返すオープンドメイン質問応答(qa)に焦点を当てた。
論文 参考訳(メタデータ) (2021-01-01T01:24:34Z) - A Two-Systems Perspective for Computational Thinking [2.4149105714758545]
本稿では,計算思考過程を理解するためのフレームワークとして,Kahnemanの2システムモデルを採用することを提案する。
Kahneman氏の2つのシステムの観点から考えると、潜在的な利点は、推論にエラーを引き起こすバイアスを修正するのに役立ちます。
論文 参考訳(メタデータ) (2020-12-06T07:33:45Z) - Defensive Few-shot Learning [77.82113573388133]
本稿では,防御的数発学習という新たな課題について検討する。
敵の攻撃に対して頑丈な数発のモデルを学習することを目的としている。
提案したフレームワークは、既存の数発のモデルを敵攻撃に対して効果的に堅牢にすることができる。
論文 参考訳(メタデータ) (2019-11-16T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。