Fugu-MT 論文翻訳(概要): Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing

論文の概要: Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing

arxiv url: http://arxiv.org/abs/2310.13855v1
Date: Fri, 20 Oct 2023 23:15:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:47:17.558305
Title: Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing
Title（参考訳）: Evoke:レビュアー-認証プロンプト編集によるLLMの批判的思考能力の回避
Authors: Xinyu Hu, Pengfei Tang, Simiao Zuo, Zihan Wang, Bowen Song, Qiang Lou, Jian Jiao, Denis Charles
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理において顕著な進歩を遂げた。本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。一つはレビュアーとして、もう一つは現在のプロンプトをスコアし、もう一つは著者として、編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。
参考スコア（独自算出の注目度）: 19.241543540941283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have made impressive progress in natural language processing. These models rely on proper human instructions (or prompts) to generate suitable responses. However, the potential of LLMs are not fully harnessed by commonly-used prompting methods: many human-in-the-loop algorithms employ ad-hoc procedures for prompt selection; while auto prompt generation approaches are essentially searching all possible prompts randomly and inefficiently. We propose Evoke, an automatic prompt refinement framework. In Evoke, there are two instances of a same LLM: one as a reviewer (LLM-Reviewer), it scores the current prompt; the other as an author (LLM-Author), it edits the prompt by considering the edit history and the reviewer's feedback. Such an author-reviewer feedback loop ensures that the prompt is refined in each iteration. We further aggregate a data selection approach to Evoke, where only the hard samples are exposed to the LLM. The hard samples are more important because the LLM can develop deeper understanding of the tasks out of them, while the model may already know how to solve the easier cases. Experimental results show that Evoke significantly outperforms existing methods. For instance, in the challenging task of logical fallacy detection, Evoke scores above 80, while all other baseline methods struggle to reach 20.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。これらのモデルは適切な応答を生成するために適切なヒューマン命令(またはプロンプト)に依存する。多くのヒューマン・イン・ザ・ループアルゴリズムは、プロンプト選択にアドホックな手順を用いるが、オート・プロンプト生成のアプローチは本質的に、すべての可能なプロンプトをランダムかつ非効率に探索する。本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。 Evokeでは、1つはレビュアー(LLM-Reviewer)、もう1つは著者(LLM-Author)、もう1つは編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。このような著者/レビュー者のフィードバックループは、各イテレーションでプロンプトが洗練されることを保証する。さらに,硬いサンプルのみをllmに露出させる,evokeへのデータ選択アプローチを集約する。厳密なサンプルは、LCMがそれらのタスクをより深く理解し、モデルがより簡単なケースの解決方法をすでに知っているため、より重要である。実験の結果,Evokeは既存の手法よりも優れていた。例えば、論理的誤検出の難しいタスクでは、Evokeは80点を超え、他のすべてのベースラインメソッドは20点に達するのに苦労する。

関連論文リスト

LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation [17.064672221710307]
大きな言語モデル(LLM)は、与えられたソースコードに対して有用なテストケースを生成することができる。現存する作品は、主に人書きの平易なプロンプトに依存している。
論文参考訳（メタデータ） (2025-01-02T16:30:05Z)
Prompt Exploration with Prompt Regression [38.847668543140315]
本稿では,プロンプト回帰を用いたプロンプト探索(Pmpt Exploration with Prompt Regression,PEPR)を提案する。我々は,複数の異なるタスクに対して,異なるサイズのオープンソースLLMを用いてアプローチを評価した。
論文参考訳（メタデータ） (2024-05-17T20:30:49Z)
Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文参考訳（メタデータ） (2024-04-01T12:19:08Z)
LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文参考訳（メタデータ） (2024-02-14T17:49:31Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Revisiting Prompt Engineering via Declarative Crowdsourcing [16.624577543520093]
大規模言語モデル(LLM)は、テキスト形式でデータを解釈し、生成するのに驚くほど強力ですが、脆弱でエラーを起こします。私たちは宣言的な急進的なエンジニアリングのビジョンを打ち出した。ソート、実体分解、計算に関する予備的ケーススタディは、我々のアプローチの可能性を実証している。
論文参考訳（メタデータ） (2023-08-07T18:04:12Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。