論文の概要: uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers?
- arxiv url: http://arxiv.org/abs/2404.02474v1
- Date: Wed, 3 Apr 2024 05:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:29:43.548599
- Title: uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers?
- Title(参考訳): uTeBC-NLP at SemEval-2024 Task 9: LLMs belateralal Thinkers?
- Authors: Pouya Sadeghi, Amirhossein Abaskohi, Yadollah Yaghoobzadeh,
- Abstract要約: 本研究は,異なるプロンプト手法が,外的思考能力に固有の能力を明らかにするために,タスク上でのLLMの性能をいかに向上させるかを検討する。
我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。
発見は、圧縮された情報伝達プロンプトが性能を大幅に向上させることを示している。
- 参考スコア(独自算出の注目度): 7.0546788281657875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by human cognition, Jiang et al.(2023c) create a benchmark for assessing LLMs' lateral thinking-thinking outside the box. Building upon this benchmark, we investigate how different prompting methods enhance LLMs' performance on this task to reveal their inherent power for outside-the-box thinking ability. Through participating in SemEval-2024, task 9, Sentence Puzzle sub-task, we explore prompt engineering methods: chain of thoughts (CoT) and direct prompting, enhancing with informative descriptions, and employing contextualizing prompts using a retrieval augmented generation (RAG) pipeline. Our experiments involve three LLMs including GPT-3.5, GPT-4, and Zephyr-7B-beta. We generate a dataset of thinking paths between riddles and options using GPT-4, validated by humans for quality. Findings indicate that compressed informative prompts enhance performance. Dynamic in-context learning enhances model performance significantly. Furthermore, fine-tuning Zephyr on our dataset enhances performance across other commonsense datasets, underscoring the value of innovative thinking.
- Abstract(参考訳): 人間の認知に触発されて、Jiane et al (2023c) は LLM の側方思考を箱の外側で評価するためのベンチマークを作成する。
このベンチマークに基づいて,異なるプロンプト法がLCMの性能を向上し,外部思考能力に固有のパワーを明らかにする方法について検討する。
SemEval-2024, Task 9, Sentence Puzzle sub-taskに参加することで, 思考の連鎖(CoT)と直接的プロンプト, 情報的記述の強化, 検索拡張生成(RAG)パイプラインを用いた文脈的プロンプトの活用など, 迅速なエンジニアリング手法を探求する。
実験では, GPT-3.5, GPT-4, Zephyr-7B-betaの3種類のLDMについて検討した。
我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。
発見は、圧縮された情報伝達プロンプトによって性能が向上することを示している。
動的コンテキスト学習はモデル性能を大幅に向上させる。
さらに、データセット上の微調整Zephyrは、他のコモンセンスデータセットのパフォーマンスを高め、革新的な思考の価値を強調します。
関連論文リスト
- LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts [5.91695168183101]
本稿では、SemEval-2024 Task 9にチームMasonTigersを提出する。
自然言語理解をテストするためのパズルのデータセットを提供する。
我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。
論文 参考訳(メタデータ) (2024-03-22T06:31:49Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - More Samples or More Prompts? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering [35.086135550672864]
In-Context Smpling (ICS) を提案し、複数のICLプロンプト入力の構成を最適化し、確実な予測を行う。
3つのデータ類似性に基づくICS戦略による詳細な評価は、これらの戦略がLLMの性能をさらに高める可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-11-16T11:02:49Z) - Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。
まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。
第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。