Fugu-MT 論文翻訳(概要): Suri: Multi-constraint Instruction Following for Long-form Text Generation

論文の概要: Suri: Multi-constraint Instruction Following for Long-form Text Generation

arxiv url: http://arxiv.org/abs/2406.19371v2
Date: Wed, 02 Oct 2024 01:01:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:04:23.924939
Title: Suri: Multi-constraint Instruction Following for Long-form Text Generation
Title（参考訳）: Suri: 長文テキスト生成のためのマルチ制約命令追従
Authors: Chau Minh Pham, Simeng Sun, Mohit Iyyer,
Abstract要約: 長文生成のためのマルチ制約命令について検討する。 Suri は LLM 生成した逆転写命令と組み合わせて,20K 個の人書き長文からなるデータセットである。我々は,SFTモデルとI-ORPOモデルの両方がほとんどの制約を満たす一方で,Suri-I-ORPO世代は制約の一貫性と情報化に好適であることを示した。
参考スコア（独自算出の注目度）: 40.169631900733854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.
Abstract（参考訳）: 命令に従う既存の研究は、単純な命令と短い応答を持つタスクに主に焦点をあてている。本研究では,長文テキストを生成するためのマルチ制約命令について検討する。 Suriは20Kの人書き長文テキストと、複数の複雑な制約を含むLLM生成の裏書き命令を組み合わせたデータセットです。長文テキスト上での人間の嗜好判断の収集に係わる禁止的課題のため,DPOなどの嗜好調整アルゴリズムは実現不可能であり,本アルゴリズムに基づくアライメント手法であるインストラクショナルORPO(I-ORPO)を提案する。好ましくない応答から負のフィードバックを受ける代わりに、I-ORPOはLLMによって生成された合成劣化命令から負のフィードバックを得る。 Suriを用いてMistral-7b-Instruct-v0.2上で教師付きおよびI-ORPO微調整を行う。結果として得られたSuri-SFTとSuri-I-ORPOは、品質劣化のないベースモデルよりもはるかに長いテキスト(約5Kトークン)を生成する。我々は,SFTモデルとI-ORPOモデルの両方がほとんどの制約を満たす一方で,Suri-I-ORPO世代は制約の一貫性と情報化に好適であることを示した。コードをhttps://github.com/chtmp223/suri.comでリリースしています。

関連論文リスト

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文参考訳（メタデータ） (2025-12-19T03:01:59Z)
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文参考訳（メタデータ） (2025-01-22T14:15:46Z)
Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文参考訳（メタデータ） (2024-11-05T07:12:36Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文参考訳（メタデータ） (2024-06-04T16:09:13Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文参考訳（メタデータ） (2023-08-22T02:25:04Z)
Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。 2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文参考訳（メタデータ） (2020-10-16T18:02:07Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。