論文の概要: Following Length Constraints in Instructions
- arxiv url: http://arxiv.org/abs/2406.17744v1
- Date: Tue, 25 Jun 2024 17:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:31:24.702432
- Title: Following Length Constraints in Instructions
- Title(参考訳): 指導における長さ制約
- Authors: Weizhe Yuan, Ilia Kulikov, Ping Yu, Kyunghyun Cho, Sainbayar Sukhbaatar, Jason Weston, Jing Xu,
- Abstract要約: 所望の長さ制約を含む命令を用いて,推論時に制御可能なモデルをトレーニングする方法を示す。
このようなモデルは、GPT4、Llama 3、Mixtralといった標準命令よりも優れている。
- 参考スコア(独自算出の注目度): 76.89915306753441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligned instruction following models can better fulfill user requests than their unaligned counterparts. However, it has been shown that there is a length bias in evaluation of such models, and that training algorithms tend to exploit this bias by learning longer responses. In this work we show how to train models that can be controlled at inference time with instructions containing desired length constraints. Such models are superior in length instructed evaluations, outperforming standard instruction following models such as GPT4, Llama 3 and Mixtral.
- Abstract(参考訳): 従順なモデルに従う命令は、整合性のないモデルよりもユーザ要求を満足させることができる。
しかし、そのようなモデルの評価には長いバイアスがあり、トレーニングアルゴリズムはより長い応答を学習することで、このバイアスを利用する傾向があることが示されている。
本研究では,所望の長さ制約を含む命令を用いて,推論時に制御可能なモデルをトレーニングする方法を示す。
このようなモデルは、GPT4、Llama 3、Mixtralといった標準命令よりも優れている。
関連論文リスト
- Instruction Following without Instruction Tuning [87.72635104686275]
命令チューニングに比較して不十分な2種類の適応(チューニング)があるが、それでも命令に従うことができる。
我々は、事前訓練されたモデルを用いて、エキスパート製品における指示に従うルールベースの言語モデルを手書きで支援する。
論文 参考訳(メタデータ) (2024-09-21T22:36:22Z) - Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究では,大規模言語モデル(LLM)が「誤解を招く」命令を与えられた場合,推論や真理よりも次の命令を優先するかどうかを考察する。
本稿では,学習前アライメントと学習後アライメントの関連性に新たな光を当てる「反射判断」という新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models [27.26285945442178]
InstructCMPは文圧縮タスクへのアプローチであり、命令によって長さ制約を考慮できる。
長さプライミングを適用することで、ゼロショット設定と微調整設定の両方において、インストラクトCMPの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-16T23:00:47Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - No Length Left Behind: Enhancing Knowledge Tracing for Modeling
Sequences of Excessive or Insufficient Lengths [3.2687390531088414]
知識追跡は,過去の質問応答行動に基づいて,学生の実践に対する反応を予測することを目的としている。
シーケンスが長くなると、計算コストは指数関数的に増加する。
シーケンス・フレキシブル・ナレッジ・トラクション(SFKT)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T11:30:58Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions [71.5668415104079]
我々は14のNLUベンチマークにおいて、命令バイアスと呼ばれるバイアスの形式を研究する。
提案手法は, クラウドワーカーが収集したデータに伝達する具体的なパターンを示すことが多いことを示す。
論文 参考訳(メタデータ) (2022-05-01T07:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。