論文の概要: GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs
- arxiv url: http://arxiv.org/abs/2503.06139v1
- Date: Sat, 08 Mar 2025 09:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.202695
- Title: GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs
- Title(参考訳): GRP: LLMによるゼロショット評価のためのゴールリバースプロンプト
- Authors: Mingyang Song, Mao Zheng, Xuan Luo,
- Abstract要約: 大きな言語モデル(LLMs)を使用して2つの回答を評価し比較する。
目的逆プロンプティング(GRP)手法を提案し、元のタスクをより良い解から悪い解を選択するようにシフトする。
- 参考スコア(独自算出の注目度): 14.906150451947443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Large Language Models (LLMs) to evaluate and compare two answers from different models typically involves having LLM-based judges select the better answer. However, humans often approach problem-solving from a reverse perspective, for instance, by choosing the worse option instead of the better one in a pairwise comparison. Generally, this kind of reverse thinking plays a crucial role in human reasoning and decision-making and can further test the difference between original and reverse thought processes simultaneously. To address the above issue, in this paper, we propose a Goal-Reversed Prompting (GRP) approach for pairwise evaluation that shifts the original task from selecting the better answer to choosing the worse one. We encourage LLMs to think in reverse by prompting LLMs to identify the worse response. Experiments on closed-source models demonstrate that GRP significantly enhances evaluation capabilities, outperforming the prompt template with the original goal.
- Abstract(参考訳): 大きな言語モデル(LLM)を使用して、異なるモデルから2つの回答を評価し、比較する。
しかしながら、人間はしばしば逆の視点から問題解決にアプローチし、例えば、ペア比較においてより良い選択肢ではなく、悪い選択肢を選択する。
一般的に、このような逆思考は人間の推論と意思決定において重要な役割を担い、元の思考プロセスと逆思考プロセスの違いを同時にテストすることができる。
上記の問題に対処するため,本論文では,元のタスクがより良い解から悪い解を選択するようになるようなペアワイズ評価のためのゴール・リバース・プロンプティング(GRP)手法を提案する。
我々は、LSMに悪い反応を特定するよう促すことで、LSMに逆の考え方を推奨する。
クローズドソースモデルの実験では、GRPは評価能力を著しく向上し、プロンプトテンプレートを本来の目標で上回ることを示した。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。
この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。
本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:25:43Z) - Time-Reversal Provides Unsupervised Feedback to LLMs [31.575024356581846]
Time Reversed Language Models (TRLM) は、応答に条件付きでクエリをスコアし、生成することができる。
TRLMのスコアリングは,従来のクエリのフォワードスコアよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:54:12Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。