論文の概要: Effectiveness of Zero-shot-CoT in Japanese Prompts
- arxiv url: http://arxiv.org/abs/2503.06765v1
- Date: Sun, 09 Mar 2025 20:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:29.120418
- Title: Effectiveness of Zero-shot-CoT in Japanese Prompts
- Title(参考訳): プロンプトにおけるゼロショットCoTの有効性
- Authors: Shusuke Takayama, Ian Frank,
- Abstract要約: また,ChatGPT-3.5 と 4o-mini を用いて,日本語と英語におけるゼロショット・チェーン・オブ・ソート(CoT)の有効性を比較した。
CoTは、"Let's Think by Step"のようなフレーズを、答える前に推論を促進するプロンプトに付加する。
日本語マルチタスク言語理解ベンチマークを用いて,これらの効果を日本語に伝達する方法を検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We compare the effectiveness of zero-shot Chain-of-Thought (CoT) prompting in Japanese and English using ChatGPT-3.5 and 4o-mini. The technique of zero-shot CoT, which involves appending a phrase such as "Let's think step by step" to a prompt to encourage reasoning before answering, has been shown to offer LLM performance improvements in mathematical and reasoning tasks, particularly in English. We investigate how these effects transfer to Japanese using the Japanese Multi-task Language Understanding Benchmark (JMMLU) and the Multi-task Language Understanding Benchmark (MMLU). Our results show that while zero-shot CoT prompting can lead to notable performance gains for some prompt categories in GPT-3.5, its impact in GPT-4o-mini is associated with significant performance declines. However, for Japanese prompts there remain certain categories, such as college mathematics and abstract algebra, that still exhibit improvements, despite the broader trend of diminishing effectiveness in more advanced models.
- Abstract(参考訳): また,ChatGPT-3.5 と 4o-mini を用いて,日本語と英語におけるゼロショット・チェーン・オブ・ソート(CoT)の有効性を比較した。
ゼロショットCoTのテクニックは、"Let's Think by Step"(ステップバイステップ)のようなフレーズを、答えの前に推論を促すプロンプトに付加することで、特に英語において、数学的および推論タスクにおいてLLMのパフォーマンス改善を提供することを示した。
日本語マルチタスク言語理解ベンチマーク(JMMLU)とマルチタスク言語理解ベンチマーク(MMLU)を用いて,これらの効果を日本語に伝達する方法を検討する。
以上の結果から, ゼロショットCoTプロンプトは, GPT-3.5のいくつかの急激なカテゴリにおいて顕著な性能向上をもたらすが, GPT-4o-miniの影響は顕著な性能低下と関連していることがわかった。
しかし、日本のプロンプトには、より先進的なモデルでは効果が低下する傾向にあるにもかかわらず、まだ改善を示す大学数学や抽象代数学のような特定のカテゴリーが残っている。
関連論文リスト
- Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - EchoPrompt: Instructing the Model to Rephrase Queries for Improved
In-context Learning [18.056200055153536]
EchoPromptは単純だが効果的なアプローチで、モデルに応答する前にクエリをリフレッシュする。
EchoPromptは、標準とチェーンのプロンプトを備えたゼロショットと少数ショットのインコンテキスト学習の両方に対応している。
実験の結果,EchoPromptは文脈内学習性能を向上させる効果的な手法であることがわかった。
論文 参考訳(メタデータ) (2023-09-16T00:55:08Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models [6.145834902689888]
大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-28T15:54:29Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。