論文の概要: LLMs as Method Actors: A Model for Prompt Engineering and Architecture
- arxiv url: http://arxiv.org/abs/2411.05778v2
- Date: Mon, 11 Nov 2024 21:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:22:11.108000
- Title: LLMs as Method Actors: A Model for Prompt Engineering and Architecture
- Title(参考訳): メソッドアクターとしてのLCM: プロンプトエンジニアリングとアーキテクチャのモデル
- Authors: Colin Doyle,
- Abstract要約: LLMのプロンプトエンジニアリングとプロンプトアーキテクチャを導くためのメンタルモデルとして,メソッドアクターを紹介した。
手法アクター」アプローチは、バニラと「思考の連鎖」アプローチの両方でLLM性能を著しく向上させることができることを示す。
また、複雑な推論タスク、o1-previewに特化して設計されたOpenAIの最新モデルもテストしています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce "Method Actors" as a mental model for guiding LLM prompt engineering and prompt architecture. Under this mental model, LLMs should be thought of as actors; prompts as scripts and cues; and LLM responses as performances. We apply this mental model to the task of improving LLM performance at playing Connections, a New York Times word puzzle game that prior research identified as a challenging benchmark for evaluating LLM reasoning. Our experiments with GPT-4o show that a "Method Actors" approach can significantly improve LLM performance over both a vanilla and "Chain of Thoughts" approach. A vanilla approach solves 27% of Connections puzzles in our dataset and a "Chain of Thoughts" approach solves 41% of puzzles, whereas our strongest "Method Actor" approach solves 86% of puzzles. We also test OpenAI's newest model designed specifically for complex reasoning tasks, o1-preview. When asked to solve a puzzle all at once, o1-preview solves 79% of Connections puzzles in our dataset, and when allowed to build puzzle solutions one guess at a time over multiple API calls, o1-preview solves 100% of the puzzles. Incorporating a "Method Actor" prompt architecture increases the percentage of puzzles that o1-preview solves perfectly from 76% to 87%.
- Abstract(参考訳): LLMのプロンプトエンジニアリングとプロンプトアーキテクチャを導くためのメンタルモデルとして,メソッドアクターを紹介した。
このメンタルモデルの下では、LSMはアクター、プロンプトはスクリプトとキュー、LSM応答はパフォーマンスとみなすべきである。
ニューヨーク・タイムズのワードパズルゲーム「Connections」では、このメンタルモデルを用いてLLM推論を評価する。
GPT-4oを用いた実験により,「メソッドアクター」アプローチは,バニラと「思考の連鎖」アプローチの両方でLLM性能を大幅に向上できることが示された。
バニラアプローチはデータセットのコネクトパズルの27%を解き、"Chain of Thoughts"アプローチはパズルの41%を解き、"Method Actor"アプローチはパズルの86%を解いた。
また、複雑な推論タスク、o1-previewに特化して設計されたOpenAIの最新モデルもテストしています。
一度にパズルを解くように頼まれると、o1-previewはデータセットのコネクションパズルの79%を解きます。
Method Actor"プロンプトアーキテクチャを導入すると、o1-previewが解けるパズルの割合が76%から87%に増加する。
関連論文リスト
- On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter? [36.14795256060537]
複雑度が異なる274のグリッドベースパズルからなる評価データセットであるGridPuzzleを開発した。
第2に, GPT-4, Claude-3, Gemini, Mistral, Llama-2 など LLM の推論鎖を手動で解析した新しい誤り分類法を提案する。
第3に、大規模主観的評価のためのLLMベースのフレームワーク(すなわち、誤りを特定する)と客観的な指標であるPuzzleEvalを開発し、推論連鎖の正しさを評価する。
論文 参考訳(メタデータ) (2024-07-20T07:43:07Z) - Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries [39.438904598467154]
大規模言語モデル(LLM)が複雑な多段階問題をいかに解決するかを考察する。
潜在ステップが内部でどのように計算されるかを理解することは、全体的な計算を理解する上で鍵となる。
後層からの隠れ表現を以前の層にパッチバックする「バックパッチ」解析手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:44:13Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts [5.91695168183101]
本稿では、SemEval-2024 Task 9にチームMasonTigersを提出する。
自然言語理解をテストするためのパズルのデータセットを提供する。
我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。
論文 参考訳(メタデータ) (2024-03-22T06:31:49Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。