論文の概要: Suri: Multi-constraint Instruction Following for Long-form Text Generation
- arxiv url: http://arxiv.org/abs/2406.19371v1
- Date: Thu, 27 Jun 2024 17:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:18:46.352542
- Title: Suri: Multi-constraint Instruction Following for Long-form Text Generation
- Title(参考訳): Suri: 長文テキスト生成のためのマルチ制約命令追従
- Authors: Chau Minh Pham, Simeng Sun, Mohit Iyyer,
- Abstract要約: 長文生成のためのマルチ制約命令について検討する。
Suri は LLM 生成した逆転写命令と組み合わせて,20K 個の人書き長文からなるデータセットである。
我々は,SFTモデルとI-ORPOモデルの両方がほとんどの制約を満たす一方で,Suri-I-ORPO世代は制約の一貫性と情報化に好適であることを示した。
- 参考スコア(独自算出の注目度): 40.169631900733854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.
- Abstract(参考訳): 命令に従う既存の研究は、単純な命令と短い応答を持つタスクに主に焦点をあてている。
本研究では,長文テキストを生成するためのマルチ制約命令について検討する。
Suriは20Kの人書き長文テキストと、複数の複雑な制約を含むLLM生成の裏書き命令を組み合わせたデータセットです。
長文テキスト上での人間の嗜好判断の収集に係わる禁止的課題のため,DPOなどの嗜好調整アルゴリズムは実現不可能であり,本アルゴリズムに基づくアライメント手法であるインストラクショナルORPO(I-ORPO)を提案する。
好ましくない応答から負のフィードバックを受ける代わりに、I-ORPOはLLMによって生成された合成劣化命令から負のフィードバックを得る。
Suriを用いてMistral-7b-Instruct-v0.2上で教師付きおよびI-ORPO微調整を行う。
結果として得られたSuri-SFTとSuri-I-ORPOは、品質劣化のないベースモデルよりもはるかに長いテキスト(約5Kトークン)を生成する。
我々は,SFTモデルとI-ORPOモデルの両方がほとんどの制約を満たす一方で,Suri-I-ORPO世代は制約の一貫性と情報化に好適であることを示した。
コードをhttps://github.com/chtmp223/suri.comでリリースしています。
関連論文リスト
- Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。
我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文 参考訳(メタデータ) (2024-11-05T07:12:36Z) - Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf
Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。
非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。
2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文 参考訳(メタデータ) (2020-10-16T18:02:07Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。