論文の概要: StyleRec: A Benchmark Dataset for Prompt Recovery in Writing Style Transformation
- arxiv url: http://arxiv.org/abs/2504.04373v1
- Date: Sun, 06 Apr 2025 06:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:35.352530
- Title: StyleRec: A Benchmark Dataset for Prompt Recovery in Writing Style Transformation
- Title(参考訳): StyleRec: スタイル変換におけるプロンプトリカバリのためのベンチマークデータセット
- Authors: Shenyang Liu, Yang Gao, Shaoyan Zhai, Liqiang Wang,
- Abstract要約: 本稿では,スタイル転送とリフレージングのためのプロンプトの再構築に焦点をあてた,ユニークなプロンプト回復タスクについて検討する。
LLMアシストで作成されたデータセットを導入し、複数の技術による品質保証を行う。
この結果から, 単発・微調整で最高の結果が得られたが, 従来の文類似度指標の欠陥が強調された。
- 参考スコア(独自算出の注目度): 16.666885275128507
- License:
- Abstract: Prompt Recovery, reconstructing prompts from the outputs of large language models (LLMs), has grown in importance as LLMs become ubiquitous. Most users access LLMs through APIs without internal model weights, relying only on outputs and logits, which complicates recovery. This paper explores a unique prompt recovery task focused on reconstructing prompts for style transfer and rephrasing, rather than typical question-answering. We introduce a dataset created with LLM assistance, ensuring quality through multiple techniques, and test methods like zero-shot, few-shot, jailbreak, chain-of-thought, fine-tuning, and a novel canonical-prompt fallback for poor-performing cases. Our results show that one-shot and fine-tuning yield the best outcomes but highlight flaws in traditional sentence similarity metrics for evaluating prompt recovery. Contributions include (1) a benchmark dataset, (2) comprehensive experiments on prompt recovery strategies, and (3) identification of limitations in current evaluation metrics, all of which advance general prompt recovery research, where the structure of the input prompt is unrestricted.
- Abstract(参考訳): 大規模言語モデル(LLM)の出力からのプロンプトを再構築するプロンプトリカバリは、LLMがユビキタスになるにつれて、重要度が高まっている。
ほとんどのユーザは、内部モデルウェイトのないAPIを通じてLLMにアクセスし、出力とログのみに依存するため、リカバリが複雑になる。
本稿では,典型的な質問応答ではなく,スタイル伝達と言い換えのプロンプトを再構築することに焦点を当てた,独特なプロンプト回復タスクについて検討する。
LLMアシストで作成されたデータセットを導入し、複数のテクニックを通じて品質を保証するとともに、ゼロショット、少数ショット、ジェイルブレイク、チェーン・オブ・シンク、微調整、そしてパフォーマンスの悪いケースに対する新しいノニカル・プロンプトフォールバックのようなテスト手法を導入します。
その結果, ワンショットと微調整で最高の結果が得られるが, 従来の文類似度指標の欠点が強調され, 迅速な回復が期待できることがわかった。
コントリビューションには,(1)ベンチマークデータセット,(2)迅速な回復戦略に関する総合的な実験,(3)現在の評価指標における限界の同定などが含まれる。
関連論文リスト
- R-Bot: An LLM-based Query Rewrite System [15.46599915198438]
機械学習に基づくクエリ書き換えシステムであるR-Botを提案する。
まず,複数ソースのリライトエビデンス作成パイプラインを設計し,クエリリライトエビデンスを生成する。
次に,構造解析と意味解析を組み合わせたハイブリッド・セマンティック検索手法を提案する。
広く使われているベンチマークで包括的な実験を行い、システムの性能を実証する。
論文 参考訳(メタデータ) (2024-12-02T16:13:04Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - DORY: Deliberative Prompt Recovery for LLM [11.988508965818767]
Deliberative PrOmpt Recovery (DORY)は、不確実性を利用してプロンプトを正確に回収する新しいアプローチである。
DORYは出力からのドラフトを再構築し、ヒントでそれらを精製し、不確実性に基づいてノイズを除去する。
評価の結果,DORYは既存のベースラインを上回る性能を示し,約10.82%の性能向上を実現している。
論文 参考訳(メタデータ) (2024-05-31T07:51:16Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。