論文の概要: iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers
- arxiv url: http://arxiv.org/abs/2405.16129v1
- Date: Sat, 25 May 2024 08:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:50:39.561051
- Title: iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers
- Title(参考訳): iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers
- Authors: Harshit Gupta, Manav Chaudhary, Tathagata Raha, Shivansh Subramanian, Vasudeva Varma,
- Abstract要約: 本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
- 参考スコア(独自算出の注目度): 11.819814280565142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our approach for SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense. The BRAINTEASER task comprises multiple-choice Question Answering designed to evaluate the models' lateral thinking capabilities. It consists of Sentence Puzzle and Word Puzzle subtasks that require models to defy default common-sense associations and exhibit unconventional thinking. We propose a unique strategy to improve the performance of pre-trained language models, notably the Gemini 1.0 Pro Model, in both subtasks. We employ static and dynamic few-shot prompting techniques and introduce a model-generated reasoning strategy that utilizes the LLM's reasoning capabilities to improve performance. Our approach demonstrated significant improvements, showing that it performed better than the baseline models by a considerable margin but fell short of performing as well as the human annotators, thus highlighting the efficacy of the proposed strategies.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
Sentence Puzzle と Word Puzzle のサブタスクで構成されており、モデルがデフォルトの常識的協会をデフォールトし、非伝統的思考を示すことを要求する。
本稿では、両方のサブタスクにおいて、事前訓練された言語モデル、特にGemini 1.0 Proモデルの性能を改善するためのユニークな戦略を提案する。
我々は静的かつダイナミックなショットプロンプト技術を採用し、LLMの推論機能を利用して性能を向上させるモデル生成推論戦略を導入する。
提案手法は,ベースラインモデルよりも優れた性能を示したが,アノテータやヒトのアノテータの性能に乏しく,提案手法の有効性を強調した。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
そこで本研究では,モデルパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
本手法は,Mixtral-8x7BとMixtral-8x22Bの2種類のMoEモデルを用いて評価を行った。
本手法は,様々な自然言語タスクにおいて,他のモデルプルーニング手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense [0.04096453902709291]
本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
データセットには、モデルに「ボックスの外」を考えるよう挑戦する、複数選択の質問が含まれている。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-07T14:01:56Z) - AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning [0.0]
SemEval 2024 BRAINTEASERタスクは、分散思考のための言語モデルの能力をテストすることを目的としている。
複数の選択アーキテクチャにおいて、最先端の事前学習モデルを活用することで、包括的な戦略を採用する。
提案手法はセンテンスパズルサブタスクにおいて92.5%の精度、ワードパズルサブタスクでは80.2%の精度を実現している。
論文 参考訳(メタデータ) (2024-05-16T18:26:38Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - Abdelhak at SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of
Dedicated Models Versus ChatGPT [0.0]
本研究では,BRAINTEASERタスク9を解くための専用モデルを提案する。
文と単語パズルによる側方思考能力の評価を目的とした新しい課題。
本モデルでは, 文パズル解法において, 総合スコア0.98でランク1を確保でき, 顕著な有効性を示した。
論文 参考訳(メタデータ) (2024-02-24T20:00:03Z) - Empirical Study of Zero-Shot NER with ChatGPT [19.534329209433626]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強力な能力を示した。
本研究はゼロショット情報抽出におけるLLM性能の探索に焦点をあてる。
記号的推論と算術的推論におけるLLMの顕著な推論能力に着想を得て, 代表的な推論手法をNERに適用する。
論文 参考訳(メタデータ) (2023-10-16T03:40:03Z) - NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic
Statistical Models and Pre-trained Language Models [4.329463429688995]
本稿では,NOWJ1チームによるALQAC(Automated Legal Question Answering Competition)2023について述べる。
文書検索タスクでは、入力制限を克服し、学習からランクまでの手法を適用して様々なモデルの特徴を統合する。
我々は,従来の統計モデルと事前学習型言語モデルの両方を利用して,各サブタスクに対して異なるシステムを開発するために,最先端のモデルを組み込んだ。
論文 参考訳(メタデータ) (2023-09-16T18:32:15Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。