論文の概要: Large Language Model Prompt Datasets: An In-depth Analysis and Insights
- arxiv url: http://arxiv.org/abs/2510.09316v1
- Date: Fri, 10 Oct 2025 12:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.896228
- Title: Large Language Model Prompt Datasets: An In-depth Analysis and Insights
- Title(参考訳): Large Language Model Prompt Datasets: 詳細な分析と洞察
- Authors: Yuanming Zhang, Yan Lin, Arijit Khan, Huaiyu Wan,
- Abstract要約: プロンプトは、大きな言語モデル(LLM)の特定のタスクを定義する自然言語命令である。
この作業では、初めて、さまざまなチャネルからソースされたプロンプトデータセットの広範なリストをコンパイルしました。
- 参考スコア(独自算出の注目度): 17.386420251846953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prompt is a natural language instruction that defines a specific task for a large language model (LLM) and serves as the primary interface for human-LLM interaction. With the growing deployment of LLMs, diverse prompt datasets are emerging from platforms such as GitHub and social media. These datasets span a wide array of applications and content types, facilitating both broader LLM utilization and improved prompt engineering. In this work, we--for the first time--have compiled an extensive list of prompt datasets sourced from various channels, representing a spectrum of downstream tasks, languages, engineering techniques, attributes, and modalities. We select key representative datasets for systematic analysis, revealing commonalities and differences in prompt construction across categories, distinguishing them from other text corpora like literature and web. We further propose a prompt optimization approach that leverages syntactic embeddings of part-of-speech and dependency structures. By identifying a centroid representation of prompts and guiding LLMs to rewrite prompts toward this centroid, our method improves the meaningfulness of model outputs. We have made our datasets and code available.
- Abstract(参考訳): プロンプトは、大きな言語モデル(LLM)の特定のタスクを定義し、人間とLLMの相互作用の主要なインターフェースとして機能する自然言語命令である。
LLMのデプロイの増加に伴い、GitHubやソーシャルメディアといったプラットフォームからさまざまなプロンプトデータセットが生まれている。
これらのデータセットは幅広いアプリケーションとコンテンツタイプにまたがっており、より広範なLLM利用とプロンプトエンジニアリングの改善の両方を促進する。
この研究において、私たちは初めて、下流のタスク、言語、エンジニアリング技術、属性、モダリティのスペクトルを表す、さまざまなチャネルからソースされたプロンプトデータセットの広範なリストをまとめました。
文献やウェブなど他のテキストコーパスと区別し,カテゴリ間での共通点や素早い構築の差異を明らかにする。
さらに,部分音声と依存関係構造の構文埋め込みを利用した迅速な最適化手法を提案する。
本手法は,プロンプトのセントロイド表現を同定し,このセントロイドに向けてのプロンプトの書き直しを促すことによって,モデル出力の有意義性を向上させる。
データセットとコードを利用可能にしました。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Helping Language Models Learn More: Multi-dimensional Task Prompt for
Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。
提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-12-13T10:00:44Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。