論文の概要: Prompting Science Report 1: Prompt Engineering is Complicated and Contingent
- arxiv url: http://arxiv.org/abs/2503.04818v1
- Date: Tue, 04 Mar 2025 21:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:59.960460
- Title: Prompting Science Report 1: Prompt Engineering is Complicated and Contingent
- Title(参考訳): Prompting Science Report 1: Prompt Engineering is Complexated and Contingent
- Authors: Lennart Meincke, Ethan Mollick, Lilach Mollick, Dan Shapiro,
- Abstract要約: これは、ビジネス、教育、政策リーダーがAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの最初のものだ。
LLM(Large Language Model)がベンチマークをパスするかどうかを測定するための標準は存在しない。
特定のプロンプトアプローチが LLM の特定の質問に答えられるかどうかを事前に知るのは難しい。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This is the first of a series of short reports that seek to help business, education, and policy leaders understand the technical details of working with AI through rigorous testing. In this report, we demonstrate two things: - There is no single standard for measuring whether a Large Language Model (LLM) passes a benchmark, and that choosing a standard has a big impact on how well the LLM does on that benchmark. The standard you choose will depend on your goals for using an LLM in a particular case. - It is hard to know in advance whether a particular prompting approach will help or harm the LLM's ability to answer any particular question. Specifically, we find that sometimes being polite to the LLM helps performance, and sometimes it lowers performance. We also find that constraining the AI's answers helps performance in some cases, though it may lower performance in other cases. Taken together, this suggests that benchmarking AI performance is not one-size-fits-all, and also that particular prompting formulas or approaches, like being polite to the AI, are not universally valuable.
- Abstract(参考訳): これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの最初のものです。
大規模な言語モデル(LLM)がベンチマークをパスするかどうかを測定するための単一の標準はなく、標準を選択することは、そのベンチマークでLLMがどの程度うまく機能するかに大きな影響を与える。
選択する標準は、特定のケースでLLMを使用するための目標に依存します。
-特定の推進的アプローチが LLM の特定の疑問に答える能力に役に立つか、あるいは害を与えるか、事前に知るのは難しい。
具体的には、LLMを丁寧に扱うことでパフォーマンスが向上し、パフォーマンスが低下することもあります。
また、AIの回答に制約を加えることでパフォーマンスが向上するケースもありますが、他のケースではパフォーマンスが低下する可能性もあります。
まとめると、AIのパフォーマンスのベンチマークは、すべてにフィットするものではなく、AIに礼儀正しくするように、特定の公式やアプローチを促すことは、普遍的に価値がないことを示唆している。
関連論文リスト
- Humanity's Last Exam [253.50278256434757]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる2700の質問からなる。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。