論文の概要: Pay More Attention to the Robustness of Prompt for Instruction Data Mining
- arxiv url: http://arxiv.org/abs/2503.24028v1
- Date: Mon, 31 Mar 2025 12:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.393131
- Title: Pay More Attention to the Robustness of Prompt for Instruction Data Mining
- Title(参考訳): インストラクションデータマイニングにおけるPromptのロバスト性にもっと注意を払う
- Authors: Qiang Wang, Dawei Feng, Xu Zhang, Ao Shen, Yang Xu, Bo Ding, Huaimin Wang,
- Abstract要約: 本稿では,高品質なオンライン指導データマイニングの先駆的フレームワークを提案する。
我々の特筆すべき革新は、オンラインのインストラクションデータのプロンプトに対する攻撃を行うことで、敵のインストラクションデータを生成することである。
2つのベンチマークデータセットで広範な実験を行い、性能を評価する。
- 参考スコア(独自算出の注目度): 15.350709684929116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning has emerged as a paramount method for tailoring the behaviors of LLMs. Recent work has unveiled the potential for LLMs to achieve high performance through fine-tuning with a limited quantity of high-quality instruction data. Building upon this approach, we further explore the impact of prompt's robustness on the selection of high-quality instruction data. This paper proposes a pioneering framework of high-quality online instruction data mining for instruction tuning, focusing on the impact of prompt's robustness on the data mining process. Our notable innovation, is to generate the adversarial instruction data by conducting the attack for the prompt of online instruction data. Then, we introduce an Adversarial Instruction-Following Difficulty metric to measure how much help the adversarial instruction data can provide to the generation of the corresponding response. Apart from it, we propose a novel Adversarial Instruction Output Embedding Consistency approach to select high-quality online instruction data. We conduct extensive experiments on two benchmark datasets to assess the performance. The experimental results serve to underscore the effectiveness of our proposed two methods. Moreover, the results underscore the critical practical significance of considering prompt's robustness.
- Abstract(参考訳): LLMの動作を調整するための最重要手法としてインストラクションチューニングが登場した。
最近の研究は、高品質な命令データに制限のある微調整により、LLMが高性能を実現する可能性を明らかにしている。
このアプローチに基づいて、高品質な命令データの選択に対するプロンプトの堅牢性の影響をさらに検討する。
本稿では,データマイニングにおけるプロンプトの堅牢性の影響に着目し,高品質なオンラインインストラクションデータマイニングの先駆的枠組みを提案する。
我々の特筆すべき革新は、オンラインのインストラクションデータのプロンプトに対する攻撃を行うことで、敵のインストラクションデータを生成することである。
次に,逆命令データによる応答生成にどの程度役立つかを測定するために,逆命令追従困難度尺度を導入する。
それとは別に、高品質なオンライン指導データを選択するための新しい適応的インストラクション出力埋め込み一貫性アプローチを提案する。
2つのベンチマークデータセットで広範な実験を行い、性能を評価する。
実験結果は,提案手法の有効性を裏付けるものである。
さらに, プロンプトの頑健さを考慮し, 重要な実践的意義を浮き彫りにした。
関連論文リスト
- Robust Offline Imitation Learning Through State-level Trajectory Stitching [37.281554320048755]
イミテーション・ラーニング(IL)は、ロボットが専門家によるデモンストレーションを通じて、視覚運動のスキルを習得できるようにするのに有効であることが証明されている。
オフラインILの最近の進歩は、トレーニングに最適な、ラベルなしデータセットを組み込んでいる。
本稿では,タスク関連トラジェクトリフラグメントとリッチ環境ダイナミクスを活用することで,質の高いオフラインデータセットからのポリシー学習を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T15:28:36Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - A Survey on Data Selection for LLM Instruction Tuning [18.94987580516951]
本稿では,データ選択手法の新たな分類法を提案し,最近の進歩を詳細に紹介する。
我々はオープンな課題を強調し、このタスクの新たなフロンティアを提示する。
論文 参考訳(メタデータ) (2024-02-04T13:32:01Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Compressive Features in Offline Reinforcement Learning for Recommender
Systems [2.3513645401551333]
我々は,ゲーム提供者の収益を最大化するために,インタラクティブな行動に基づく潜在的アイテムをプレイヤーに提案するゲームレコメンデータシステムを開発する。
我々のアプローチは強化学習に基づく技術に基づいており、IEEE Big Data Cupチャレンジで公開されているオフラインデータセットでトレーニングされています。
論文 参考訳(メタデータ) (2021-11-16T22:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。