論文の概要: BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- arxiv url: http://arxiv.org/abs/2406.04947v1
- Date: Fri, 7 Jun 2024 14:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:51:43.641371
- Title: BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- Title(参考訳): BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
- Authors: Baktash Ansari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi,
- Abstract要約: 本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
データセットには、モデルに「ボックスの外」を考えるよう挑戦する、複数選択の質問が含まれている。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
- 参考スコア(独自算出の注目度): 0.04096453902709291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper outlines our approach to SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Sense. The task aims to evaluate the ability of language models to think creatively. The dataset comprises multi-choice questions that challenge models to think "outside of the box". We fine-tune 2 models, BERT and RoBERTa Large. Next, we employ a Chain of Thought (CoT) zero-shot prompting approach with 6 large language models, such as GPT-3.5, Mixtral, and Llama2. Finally, we utilize ReConcile, a technique that employs a "round table conference" approach with multiple agents for zero-shot learning, to generate consensus answers among 3 selected language models. Our best method achieves an overall accuracy of 85 percent on the sentence puzzles subtask.
- Abstract(参考訳): 本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
この課題は、言語モデルが創造的に考える能力を評価することである。
データセットには、モデルに“ボックスの外”を考えるよう挑戦する、複数項目の質問が含まれている。
2つのモデル、BERTとRoBERTa Largeを微調整します。
次に、GPT-3.5、Mixtral、Llama2といった6つの大きな言語モデルを用いて、Chain of Thought (CoT)ゼロショットプロンプトアプローチを採用する。
最後に、ゼロショット学習に複数のエージェントを併用した「ラウンドテーブル会議」手法であるReConcileを用いて、3つの選択された言語モデル間のコンセンサス回答を生成する。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
関連論文リスト
- iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers [11.819814280565142]
本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:50:51Z) - MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts [5.91695168183101]
本稿では、SemEval-2024 Task 9にチームMasonTigersを提出する。
自然言語理解をテストするためのパズルのデータセットを提供する。
我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。
論文 参考訳(メタデータ) (2024-03-22T06:31:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with
Data Augmentation for Multilingual News Similarity [16.454545004093735]
本稿では,SemEval-2022 Task 8: Multilingual News Article similarityについて述べる。
我々は,いくつかのタスク固有の戦略で訓練された言語モデルを提案した。
Pearson's correlation Coefficient of 0.818 on the official evaluation set。
論文 参考訳(メタデータ) (2022-04-11T03:08:37Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language
Model for Reading Comprehension of Abstract Meaning [16.151203366447962]
モデル学習に使用されるアルゴリズムとアルゴリズムをチューニングし、最良のモデルを選択するプロセスについて説明する。
ReCAMタスクと言語事前学習の類似性から着想を得て,言語モデルによる否定的拡張という,シンプルで効果的な技術を提案する。
我々のモデルは、それぞれ87.9%の精度と92.8%の精度で、Subtask 1とSubtask 2の2つの公式テストセットで4位に達した。
論文 参考訳(メタデータ) (2021-02-25T13:03:05Z) - QiaoNing at SemEval-2020 Task 4: Commonsense Validation and Explanation
system based on ensemble of language model [2.728575246952532]
本稿では,SemEval-2020 Task 4コンペティションに提出された言語モデルシステムについて述べる。
我々は、事前訓練された言語モデル(BERT、XLNet、RoBERTa、ALBERT)を用いて転送学習を行い、このタスクでそれらを微調整した。
アンサンブルされたモデルはこの問題をよりよく解決し、モデルの精度はサブタスクAで95.9%に達した。
論文 参考訳(メタデータ) (2020-09-06T05:12:50Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。