論文の概要: AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles
- arxiv url: http://arxiv.org/abs/2404.01084v1
- Date: Mon, 1 Apr 2024 12:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:35:23.880052
- Title: AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles
- Title(参考訳): SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models forlateralal Thinking Puzzles
- Authors: Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou,
- Abstract要約: 本稿では,SemEval-2024タスク9コンペティションへの提案の概要を述べる。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
トップパフォーマンスのアプローチは、競争のリーダーボード上での競争的なポジションを確保しました。
- 参考スコア(独自算出の注目度): 1.9939549451457024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we outline our submission for the SemEval-2024 Task 9 competition: 'BRAINTEASER: A Novel Task Defying Common Sense'. We engage in both sub-tasks: Sub-task A-Sentence Puzzle and Sub-task B-Word Puzzle. We evaluate a plethora of pre-trained transformer-based language models of different sizes through fine-tuning. Subsequently, we undertake an analysis of their scores and responses to aid future researchers in understanding and utilizing these models effectively. Our top-performing approaches secured competitive positions on the competition leaderboard across both sub-tasks. In the evaluation phase, our best submission attained an average accuracy score of 81.7% in the Sentence Puzzle, and 85.4% in the Word Puzzle, significantly outperforming the best neural baseline (ChatGPT) by more than 20% and 30% respectively.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 9のコンペティションについて概説する。
サブタスク A-Sentence Puzzle と Sub-task B-Word Puzzle の2つのサブタスクに従事している。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
その後、将来の研究者がこれらのモデルを効果的に理解し活用することを支援するために、それらのスコアと反応の分析を行う。
私たちのトップパフォーマンスのアプローチは、両方のサブタスクで競争のリーダーボード上の競争的なポジションを確保しました。
評価段階では,Sentence Puzzleが81.7%,Word Puzzleが85.4%,ChatGPTが20%以上,ChatGPTが30%以上であった。
関連論文リスト
- Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense [0.04096453902709291]
本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
データセットには、モデルに「ボックスの外」を考えるよう挑戦する、複数選択の質問が含まれている。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-07T14:01:56Z) - iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers [11.819814280565142]
本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:50:51Z) - AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning [0.0]
SemEval 2024 BRAINTEASERタスクは、分散思考のための言語モデルの能力をテストすることを目的としている。
複数の選択アーキテクチャにおいて、最先端の事前学習モデルを活用することで、包括的な戦略を採用する。
提案手法はセンテンスパズルサブタスクにおいて92.5%の精度、ワードパズルサブタスクでは80.2%の精度を実現している。
論文 参考訳(メタデータ) (2024-05-16T18:26:38Z) - Abdelhak at SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of
Dedicated Models Versus ChatGPT [0.0]
本研究では,BRAINTEASERタスク9を解くための専用モデルを提案する。
文と単語パズルによる側方思考能力の評価を目的とした新しい課題。
本モデルでは, 文パズル解法において, 総合スコア0.98でランク1を確保でき, 顕著な有効性を示した。
論文 参考訳(メタデータ) (2024-02-24T20:00:03Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (2022-10-17T17:08:26Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Reed at SemEval-2020 Task 9: Fine-Tuning and Bag-of-Words Approaches to
Code-Mixed Sentiment Analysis [1.2147145617662432]
本研究では,SemEval-2020 大会第9タスク(SentiMix タスク)の参加者として,Hinglish (code-mixed Hindi- English) ツイートに対する感情分析の課題について検討する。
提案手法は,(1)事前学習したBERTモデルの微調整によるトランスファーラーニングの適用,2)単語のバッグ・オブ・ワード表現に基づくフィードフォワードニューラルネットワークのトレーニング,の2つであった。
コンペの結果,Fスコアは71.3%,ベストモデルでは62項目中4位にランクインした。
論文 参考訳(メタデータ) (2020-07-26T05:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。