論文の概要: Fine-Tuning Language Models Using Formal Methods Feedback
- arxiv url: http://arxiv.org/abs/2310.18239v1
- Date: Fri, 27 Oct 2023 16:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:06:34.748813
- Title: Fine-Tuning Language Models Using Formal Methods Feedback
- Title(参考訳): 形式的手法フィードバックを用いた微調整言語モデル
- Authors: Yunhao Yang, Neel P. Bhatt, Tyler Ingebrand, William Ward, Steven
Carr, Zhangyang Wang, Ufuk Topcu
- Abstract要約: 我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
- 参考スコア(独自算出の注目度): 53.24085794087253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although pre-trained language models encode generic knowledge beneficial for
planning and control, they may fail to generate appropriate control policies
for domain-specific tasks. Existing fine-tuning methods use human feedback to
address this limitation, however, sourcing human feedback is labor intensive
and costly. We present a fully automated approach to fine-tune pre-trained
language models for applications in autonomous systems, bridging the gap
between generic knowledge and domain-specific requirements while reducing cost.
The method synthesizes automaton-based controllers from pre-trained models
guided by natural language task descriptions. These controllers are verifiable
against independently provided specifications within a world model, which can
be abstract or obtained from a high-fidelity simulator. Controllers with high
compliance with the desired specifications receive higher ranks, guiding the
iterative fine-tuning process. We provide quantitative evidences, primarily in
autonomous driving, to demonstrate the method's effectiveness across multiple
tasks. The results indicate an improvement in percentage of specifications
satisfied by the controller from 60% to 90%.
- Abstract(参考訳): 事前訓練された言語モデルは、計画と制御に有用な一般的な知識をエンコードするが、ドメイン固有のタスクに対して適切な制御ポリシーを生成しない可能性がある。
既存の微調整手法では、この制限に対処するためにヒューマンフィードバックを使用するが、ヒューマンフィードバックのソーシングは労働集約的でコストがかかる。
汎用知識とドメイン固有の要件のギャップを埋めつつ、コストを低減しながら、自律システムにおけるアプリケーションのための微調整済み言語モデルに完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
これらのコントローラは、世界モデル内の独立した仕様に対して検証可能であり、高忠実度シミュレータから抽象化または取得することができる。
望ましい仕様に準拠したコントローラはより高いランクを受け取り、反復的な微調整プロセスを導く。
我々は、主に自動運転において、複数のタスクにまたがる方法の有効性を示す定量的な証拠を提供する。
その結果,コントローラが満足する仕様の割合が60%から90%に向上した。
関連論文リスト
- PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - A General Verification Framework for Dynamical and Control Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。
コントローラと証明書を形式的に合成する自動化手法を提案する。
我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2023-09-12T09:37:26Z) - Multimodal Pretrained Models for Verifiable Sequential Decision-Making: Planning, Grounding, and Perception [20.12750360095627]
最近開発された事前学習モデルは、テキストや画像など、複数のモードで表現された豊かな世界知識を符号化することができる。
本研究では,事前学習したモデルからの知識を利用して,逐次意思決定タスクのための制御器の構築と検証を行うアルゴリズムを開発した。
我々は,実世界のタスクスイートを通じて,自動制御システムの構築,検証,および接地を行うアルゴリズムの能力を実証する。
論文 参考訳(メタデータ) (2023-08-10T02:29:11Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - SideControl: Controlled Open-domain Dialogue Generation via Additive
Side Networks [10.607177634432214]
そこで我々は,SideControlフレームワークを用いてトランスフォーマーに基づく事前学習言語モデルの生成を制御する手法を提案する。
その結果、SideControlフレームワークは、既存のグラデーションベースや重み付きデコードベースラインよりも、制御性、生成品質、サンプル効率が向上していることがわかった。
論文 参考訳(メタデータ) (2021-09-05T01:15:26Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。