論文の概要: Task--Specificity Score: Measuring How Much Instructions Really Matter for Supervision
- arxiv url: http://arxiv.org/abs/2602.03103v1
- Date: Tue, 03 Feb 2026 04:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.250055
- Title: Task--Specificity Score: Measuring How Much Instructions Really Matter for Supervision
- Title(参考訳): Task-Specificity Score: スーパービジョンにとってどの程度のインストラクションが重要であるかを測定する
- Authors: Pritam Kadasi, Abhishek Upperwal, Mayank Singh,
- Abstract要約: textbfTask--Specificity Score (TSS) を提案する。
タスク固有の例を選択することで、トークン予算の厳格化の下で下流のパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 1.0039548765955955
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Instruction tuning is now the default way to train and adapt large language models, but many instruction--input--output pairs are only weakly specified: for a given input, the same output can remain plausible under several alternative instructions. This raises a simple question: \emph{does the instruction uniquely determine the target output?} We propose the \textbf{Task--Specificity Score (TSS)} to quantify how much an instruction matters for predicting its output, by contrasting the true instruction against plausible alternatives for the same input. We further introduce \textbf{TSS++}, which uses hard alternatives and a small quality term to mitigate easy-negative effects. Across three instruction datasets (\textsc{Alpaca}, \textsc{Dolly-15k}, \textsc{NI-20}) and three open LLMs (Gemma, Llama, Qwen), we show that selecting task-specific examples improves downstream performance under tight token budgets and complements quality-based filters such as perplexity and IFD.
- Abstract(参考訳): インストラクションチューニングは現在、大きな言語モデルをトレーニングし、適応するためのデフォルトの方法となっているが、多くのインストラクション-インプット-アウトプットペアは弱い指定しかできない。
\emph{does the instruction is uniquely determine the target output?
} 出力の予測にどの程度の命令が重要であるかを、同じ入力に対して可算な代替品に対して真の命令と対比することにより定量化するために、textbf{Task--Specificity Score (TSS)を提案する。
さらに、ハードな代替品と小さな品質の用語を使って、容易な負の効果を緩和する \textbf{TSS++} も導入する。
3つの命令データセット (\textsc{Alpaca}, \textsc{Dolly-15k}, \textsc{NI-20}) と3つのオープンLCM (Gemma, Llama, Qwen) にまたがって, タスク固有の例を選択することで, 厳密なトークン予算下でのダウンストリーム性能が向上し, パープレキシティやIFDなどの品質ベースのフィルタを補完することを示す。
関連論文リスト
- The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives [7.085868567930685]
Instruction-tuned large language model (IT-LLM) は強いゼロショット推論を示す。
MMLUとMMLU-Proのベンチマークを用いて20個のIT-LLMを評価した。
論文 参考訳(メタデータ) (2025-10-20T10:26:26Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing [24.316956641791034]
拡散型編集システムのためのゼロショット推論パイプラインを提案する。
入力命令を特定の命令に分解するために,大言語モデル (LLM) を用いる。
我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高めます。
論文 参考訳(メタデータ) (2024-07-29T17:59:57Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Vector-Quantized Input-Contextualized Soft Prompts for Natural Language
Understanding [62.45760673220339]
本稿では,Vector-quantized Input-contextualized Prompt Tuning (VIP)を提案する。
自然言語理解タスクの幅広い範囲において,提案するVIPフレームワークが1.19%の差でPTモデルに勝っている。
論文 参考訳(メタデータ) (2022-05-23T03:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。