論文の概要: AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles
- arxiv url: http://arxiv.org/abs/2404.01084v1
- Date: Mon, 1 Apr 2024 12:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:35:23.880052
- Title: AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles
- Title(参考訳): SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models forlateralal Thinking Puzzles
- Authors: Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou,
- Abstract要約: 本稿では,SemEval-2024タスク9コンペティションへの提案の概要を述べる。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
トップパフォーマンスのアプローチは、競争のリーダーボード上での競争的なポジションを確保しました。
- 参考スコア(独自算出の注目度): 1.9939549451457024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we outline our submission for the SemEval-2024 Task 9 competition: 'BRAINTEASER: A Novel Task Defying Common Sense'. We engage in both sub-tasks: Sub-task A-Sentence Puzzle and Sub-task B-Word Puzzle. We evaluate a plethora of pre-trained transformer-based language models of different sizes through fine-tuning. Subsequently, we undertake an analysis of their scores and responses to aid future researchers in understanding and utilizing these models effectively. Our top-performing approaches secured competitive positions on the competition leaderboard across both sub-tasks. In the evaluation phase, our best submission attained an average accuracy score of 81.7% in the Sentence Puzzle, and 85.4% in the Word Puzzle, significantly outperforming the best neural baseline (ChatGPT) by more than 20% and 30% respectively.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 9のコンペティションについて概説する。
サブタスク A-Sentence Puzzle と Sub-task B-Word Puzzle の2つのサブタスクに従事している。
我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。
その後、将来の研究者がこれらのモデルを効果的に理解し活用することを支援するために、それらのスコアと反応の分析を行う。
私たちのトップパフォーマンスのアプローチは、両方のサブタスクで競争のリーダーボード上の競争的なポジションを確保しました。
評価段階では,Sentence Puzzleが81.7%,Word Puzzleが85.4%,ChatGPTが20%以上,ChatGPTが30%以上であった。
関連論文リスト
- SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense [15.95314613982879]
SemEval Task 9: BRAIN-TEASER(S)は、システムの推論と横方向の思考能力をテストするために設計された、このコンペティションにおける最初のタスクである。
本稿では,競争結果のきめ細かいシステム解析と,それがシステムに横方向の推論能力にどのような意味を持つのかを考察する。
論文 参考訳(メタデータ) (2024-04-22T07:21:27Z) - Abdelhak at SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of
Dedicated Models Versus ChatGPT [0.0]
本研究では,BRAINTEASERタスク9を解くための専用モデルを提案する。
文と単語パズルによる側方思考能力の評価を目的とした新しい課題。
本モデルでは, 文パズル解法において, 総合スコア0.98でランク1を確保でき, 顕著な有効性を示した。
論文 参考訳(メタデータ) (2024-02-24T20:00:03Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality
Estimation Shared Task [11.681598828340912]
We present the joint contribution of Unbabel and Instituto Superior T'ecnico to the WMT 2023 Shared Task on Quality Estimation (QE)。
私たちのチームは、文レベルと単語レベルの品質予測(タスク1)ときめ細かいエラースパン検出(タスク2)という、すべてのタスクに参加しました。
我々の多言語的アプローチは、すべてのタスクにおいて第一にランク付けされ、単語、スパン、文レベルの判断における品質評価のための最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-09-21T09:38:56Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (2022-10-17T17:08:26Z) - PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation [89.0074567748505]
即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
論文 参考訳(メタデータ) (2022-08-22T09:14:14Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Zhestyatsky at SemEval-2021 Task 2: ReLU over Cosine Similarity for BERT
Fine-tuning [0.07614628596146598]
本稿では,SemEval-2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) への貢献について述べる。
実験は、タスクの多言語設定から英語(en-en)サブトラックをカバーする。
Cosine similarity と ReLU の活性化の組み合わせにより、最も効果的な微調整手順が導かれる。
論文 参考訳(メタデータ) (2021-04-13T18:28:58Z) - Reed at SemEval-2020 Task 9: Fine-Tuning and Bag-of-Words Approaches to
Code-Mixed Sentiment Analysis [1.2147145617662432]
本研究では,SemEval-2020 大会第9タスク(SentiMix タスク)の参加者として,Hinglish (code-mixed Hindi- English) ツイートに対する感情分析の課題について検討する。
提案手法は,(1)事前学習したBERTモデルの微調整によるトランスファーラーニングの適用,2)単語のバッグ・オブ・ワード表現に基づくフィードフォワードニューラルネットワークのトレーニング,の2つであった。
コンペの結果,Fスコアは71.3%,ベストモデルでは62項目中4位にランクインした。
論文 参考訳(メタデータ) (2020-07-26T05:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。