Fugu-MT 論文翻訳(概要): From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification

論文の概要: From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification

arxiv url: http://arxiv.org/abs/2403.06326v1
Date: Sun, 10 Mar 2024 22:14:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:52:24.567476
Title: From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification
Title（参考訳）: 命令から制約へ:自動制約検証による言語モデルアライメント
Authors: Fei Wang, Chao Shang, Sarthak Jain, Shuai Wang, Qiang Ning, Bonan Min, Vittorio Castelli, Yassine Benajiba, Dan Roth
Abstract要約: NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
参考スコア（独自算出の注目度）: 70.08146540745877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: User alignment is crucial for adapting general-purpose language models (LMs) to downstream tasks, but human annotations are often not available for all types of instructions, especially those with customized constraints. We observe that user instructions typically contain constraints. While assessing response quality in terms of the whole instruction is often costly, efficiently evaluating the satisfaction rate of constraints is feasible. We investigate common constraints in NLP tasks, categorize them into three classes based on the types of their arguments, and propose a unified framework, ACT (Aligning to ConsTraints), to automatically produce supervision signals for user alignment with constraints. Specifically, ACT uses constraint verifiers, which are typically easy to implement in practice, to compute constraint satisfaction rate (CSR) of each response. It samples multiple responses for each prompt and collect preference labels based on their CSR automatically. Subsequently, ACT adapts the LM to the target task through a ranking-based learning process. Experiments on fine-grained entity typing, abstractive summarization, and temporal question answering show that ACT is able to enhance LMs' capability to adhere to different classes of constraints, thereby improving task performance. Further experiments show that the constraint-following capabilities are transferable.
Abstract（参考訳）: ユーザアライメントは、ダウンストリームタスクに汎用言語モデル(LM)を適用する上で重要であるが、人間アノテーションは、特にカスタマイズされた制約を持つすべての命令で利用できないことが多い。ユーザ命令は一般的に制約を含む。命令全体の観点からの応答品質の評価はコストがかかることが多いが、制約の満足度を効率的に評価することは可能である。我々は,NLPタスクの共通制約を調査し,それらの引数の型に基づいて3つのクラスに分類し,制約に適応したユーザアライメントのための監視信号を自動的に生成する統合フレームワークACTを提案する。具体的には、ACTは各応答の制約満足度(CSR)を計算するために、一般的に実装が容易な制約検証器を使用する。プロンプト毎に複数のレスポンスをサンプリングし、csrに基づいて好みラベルを自動的に収集する。その後、ACTはランキングベースの学習プロセスを通じて、LMを目標タスクに適応させる。微粒なエンティティタイピング、抽象的な要約、時間的質問応答の実験は、ACTが異なる制約クラスに準拠するLMの能力を強化し、タスク性能を向上させることができることを示している。さらなる実験により、制約追従能力は転送可能であることが示されている。

関連論文リスト

Generalizing Verifiable Instruction Following [44.02178200187706]
人間とAIの相互作用を成功させる重要な要因は、言語モデルが正確に人間の指示に従う能力である。ほとんどのモデルは、これらの能力をテストするベンチマークから検証可能な制約の小さなセットに強く適合している。我々は、58の新しい多様で挑戦的なドメイン外制約を一般化した後の正確な命令を評価するために、IFBenchという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-03T17:44:33Z)
RECAST: Strengthening LLMs' Complex Instruction Following with Constraint-Verifiable Data [37.631782007066214]
RECASTはデータセットを合成するための新しいフレームワークで、各サンプルには既存のベンチマークよりもはるかに多くの制約が組み込まれている。我々は15の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。実験の結果、RECAST-30Kで微調整されたモデルでは、後続の複雑な命令が大幅に改善された。
論文参考訳（メタデータ） (2025-05-25T08:31:08Z)
Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability [5.393872292662451]
Meeseeksは,反復的なフィードバックフレームワークを通じて,現実的な人間-LLMインタラクションをシミュレートする。 MeeseeksはマルチターンシナリオにおけるLLMの命令フォロー機能に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-04-30T13:28:19Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Multi-Attribute Constraint Satisfaction via Language Model Rewriting [67.5778646504987]
マルチ属性制約満足度(英: Multi-Attribute Constraint Satisfaction, MACS)は、言語モデルを微調整して、複数の外部実値属性に対するユーザ指定制約を満たす手法である。我々の研究は、NLPやバイオインフォマティクスにまたがる多様な応用に影響を及ぼす、一般化および実値多属性制御のための新しい道を開く。
論文参考訳（メタデータ） (2024-12-26T12:36:39Z)
Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文参考訳（メタデータ） (2024-09-22T09:27:42Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。タスク仕様プロセスのガイドには*LM自身を使うことを提案します。我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文参考訳（メタデータ） (2023-10-17T21:11:21Z)
Toward Unified Controllable Text Generation via Regular Expression Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文参考訳（メタデータ） (2023-09-19T09:05:14Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Generative Prompt Tuning for Relation Classification [21.027631157115135]
本稿では,関係分類を埋め込み問題として再構成する新しい生成的プロンプトチューニング手法を提案する。さらに,エンティティ誘導型復号化と識別的関係スコアリングを設計し,推論中の関係を効果的かつ効率的に生成・調整する。
論文参考訳（メタデータ） (2022-10-22T12:40:23Z)
Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文参考訳（メタデータ） (2021-08-07T09:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。