論文の概要: SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- arxiv url: http://arxiv.org/abs/2404.16068v1
- Date: Mon, 22 Apr 2024 07:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:22:04.761051
- Title: SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- Title(参考訳): SemEval-2024 Task 9: BRAINTEASER: Common Senseを定義した新しいタスク
- Authors: Yifan Jiang, Filip Ilievski, Kaixin Ma,
- Abstract要約: SemEval Task 9: BRAIN-TEASER(S)は、システムの推論と横方向の思考能力をテストするために設計された、このコンペティションにおける最初のタスクである。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
- 参考スコア(独自算出の注目度): 15.95314613982879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vertical thinking relies on logical and commonsense reasoning, lateral thinking requires systems to defy commonsense associations and overwrite them through unconventional thinking. Lateral thinking has been shown to be challenging for current models but has received little attention. A recent benchmark, BRAINTEASER, aims to evaluate current models' lateral thinking ability in a zero-shot setting. In this paper, we split the original benchmark to also support fine-tuning setting and present SemEval Task 9: BRAIN-TEASER(S), the first task at this competition designed to test the system's reasoning and lateral thinking ability. As a popular task, BRAINTEASER(S)'s two subtasks receive 483 team submissions from 182 participants during the competition. This paper provides a fine-grained system analysis of the competition results, together with a reflection on what this means for the ability of the systems to reason laterally. We hope that the BRAINTEASER(S) subtasks and findings in this paper can stimulate future work on lateral thinking and robust reasoning by computational models.
- Abstract(参考訳): 垂直的思考は論理的・常識的推論に依存しているのに対し、横的思考はコモンセンス的関係を否定し、非伝統的な思考を通じてそれらを上書きするシステムを必要とする。
横方向の思考は現在のモデルでは難しいことが示されているが、ほとんど注目されていない。
最近のベンチマークであるBRAINTEASERは、ゼロショット設定で現在のモデルの横方向の思考能力を評価することを目的としている。
本稿では,従来のベンチマークを分割して微調整設定をサポートし,SemEval Task 9: BRAIN-TEASER(S)を提示する。
一般的なタスクとして、BRAINTEASER(S)の2つのサブタスクは、競技中に182人の参加者から483人のチームからの応募を受け取っている。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
本論文のBRAINTEASER(S)サブタスクと発見は、計算モデルによる横方向の思考と頑健な推論に関する今後の研究を促進することを期待する。
関連論文リスト
- The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers [11.819814280565142]
本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:50:51Z) - AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles [1.9939549451457024]
本稿では,SemEval-2024タスク9コンペティションへの提案の概要を述べる。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
トップパフォーマンスのアプローチは、競争のリーダーボード上での競争的なポジションを確保しました。
論文 参考訳(メタデータ) (2024-04-01T12:27:55Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z) - NeurIPS 2020 EfficientQA Competition: Systems, Analyses and Lessons
Learned [122.429985063391]
我々はNeurIPS 2020のEfficientQAコンペティションのモチベーションと組織について述べる。
コンペでは、システムは自然言語質問を入力として受け取り、自然言語応答を返すオープンドメイン質問応答(qa)に焦点を当てた。
論文 参考訳(メタデータ) (2021-01-01T01:24:34Z) - A Two-Systems Perspective for Computational Thinking [2.4149105714758545]
本稿では,計算思考過程を理解するためのフレームワークとして,Kahnemanの2システムモデルを採用することを提案する。
Kahneman氏の2つのシステムの観点から考えると、潜在的な利点は、推論にエラーを引き起こすバイアスを修正するのに役立ちます。
論文 参考訳(メタデータ) (2020-12-06T07:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。