Fugu-MT 論文翻訳(概要): Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models

論文の概要: Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2305.17077v1
Date: Fri, 26 May 2023 16:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 13:27:05.250029
Title: Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models
Title（参考訳）: 事前学習型言語モデルの計画能力向上のための検証器の学習と活用
Authors: Daman Arora and Subbarao Kambhampati
Abstract要約: 得られた計画の事前条件に違反するため,微調整されたベースラインの性能は依然として劣っていることを実証的に実証した。微調整LDMの計画能力を向上させるため,特定の状態において動作が有効か無効かを分類できる検証器を訓練する。生成器と検証器から多種多様なサンプリングを行うことで、Blocksworldドメインでの成功率が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 20.13307800821161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There have been wide spread claims in the literature about the emergent reasoning capabilities of Pretrained Large Language Models. However, recent studies, have found that their ability to plan remains questionable. Through our experiments using GPT-2, we empirically demonstrate that the performance of a finetuned baseline remains poor because it violates pre-conditions of actions in the plans that it generates. To improve the planning capabilities of a finetuned LLM, we train a verifier, which can classify actions as being valid or invalid in a particular state. By randomly sampling actions from the same dataset, we generate examples of invalid actions which are then used to train a verifier which can check for action applicability. In the presence of diverse sampling from a generator and a verifier which can prune invalid trajectories, we show significant gains in the success rate on the Blocksworld domain. Additionally, we show that finetuning the GPT-2 generator itself to create the verifier generalizes better than finetuning the base GPT-2. Lastly, we investigate the role of the sampling temperature which can be used to control the exploration-exploitation tradeoff.
Abstract（参考訳）: 事前訓練された大規模言語モデルの創発的推論能力に関する文献には広く主張されている。しかし、近年の研究で計画する能力は疑問視されている。 GPT-2を用いた実験を通して, 微調整されたベースラインの性能は, 生成する計画の事前条件に反するため, 依然として不良であることを示す。微調整LDMの計画能力を向上させるため,特定の状態において動作が有効か無効かを分類できる検証器を訓練する。同じデータセットからランダムにアクションをサンプリングすることで、無効なアクションの例を生成し、検証者のトレーニングに使用し、アクション適用性をチェックする。無効な軌道をプーンできる発電機と検証器からの多種多様なサンプリングの存在下では、Blocksworldドメインの成功率が著しく向上することを示す。さらに, GPT-2 生成器自体を微調整して検証器を作成することは, ベース GPT-2 の微調整よりも優れていることを示す。最後に,探査・探査のトレードオフを制御できるサンプリング温度の役割について検討する。

関連論文リスト

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。 GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-07-03T17:44:55Z)
Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。 DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。大規模な実験は、DETA++の有効性と柔軟性を示している。
論文参考訳（メタデータ） (2025-06-19T14:05:57Z)
Random Initialization Can't Catch Up: The Advantage of Language Model Transfer for Time Series Forecasting [12.230245646429324]
最近の研究は、低データ体制における時系列予測に事前学習言語モデル(LM)を適用することの有効性を実証している。本研究は,言語モデルから時系列予測への効果的な移行を,様々な設計選択の下で分析することによって,これらの知見を裏付けるものである。
論文参考訳（メタデータ） (2025-06-12T18:39:38Z)
Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。 GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-02T05:16:17Z)
TSCAN: Context-Aware Uplift Modeling via Two-Stage Training for Online Merchant Business Diagnosis [2.8438369256032416]
2段階トレーニングアプローチ(TSCAN)に基づく文脈認識アップリフトモデルを提案する。第1段階では、IPMの処理規則化と確率スコア予測を含む、CAN-Uと呼ばれるアップリフトモデルを訓練する。第2段階では、等張出力層を用いて昇降効果を直接モデル化するCAN-Dモデルを訓練する。
論文参考訳（メタデータ） (2025-04-26T10:00:16Z)
Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文参考訳（メタデータ） (2025-04-16T21:19:09Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Towards Pattern-aware Data Augmentation for Temporal Knowledge Graph Completion [18.51546761241817]
本稿では、時間的知識グラフのための最初のデータ拡張戦略であるBoosterを紹介する。本稿では,TKG内の三進的閉包に基づく階層的スコアリングアルゴリズムを提案する。また、モデルが好むパターンから逸脱するサンプルを特定するための2段階のトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-12-31T03:47:19Z)
Controlling Language and Diffusion Models by Transporting Activations [23.352500740697938]
本稿では,最適な輸送理論で導かれる活性化を制御するためのフレームワークであるアクティベーショントランスポート(AcT)を紹介する。我々は,大規模言語モデル (LLM) とテキスト・ツー・イメージ拡散モデル (T2Is) の重要な課題に対処することで,我々のアプローチの有効性と汎用性を実験的に示す。
論文参考訳（メタデータ） (2024-10-30T14:21:33Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文参考訳（メタデータ） (2024-04-09T07:02:14Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文参考訳（メタデータ） (2023-10-12T08:01:11Z)
An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文参考訳（メタデータ） (2023-06-06T23:56:18Z)
Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。 1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文参考訳（メタデータ） (2022-05-27T11:13:17Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Learning to Adapt to Unseen Abnormal Activities under Weak Supervision [43.40900198498228]
ビデオ中の弱教師付き異常検出のためのメタラーニングフレームワークを提案する。このフレームワークは,バイナリラベルの動画レベルのアノテーションが利用可能である場合にのみ,目に見えないような異常なアクティビティに効果的に対応できることを学習する。
論文参考訳（メタデータ） (2022-03-25T12:15:44Z)
EFSG: Evolutionary Fooling Sentences Generator [5.763228702181544]
Evolutionary Fooling Sentences Generator (EFSG) は、進化的アプローチを用いて構築されたモデルおよびタスクに依存しない敵攻撃アルゴリズムである。 BERT および RoBERTa 上の CoLA および MRPC タスクに EFSG を適用し,性能を比較した。我々は、元のデータセットでテストした場合、精度を損なうことなく、より強力な改良モデルを得る。
論文参考訳（メタデータ） (2020-10-12T14:28:48Z)
Unsupervised Paraphrase Generation using Pre-trained Language Models [0.0]
OpenAIのGPT-2は、流動的で、十分に定式化された、文法的に一貫性のあるテキストを生成する能力で有名である。我々は、GPT-2のこの生成能力を活用し、ラベル付きデータから何の監督も受けずにパラフレーズを生成する。実験の結果,我々のモデルで生成したパラフレーズは質が良く,多種多様であり,データ拡張に使用する場合のダウンストリームタスク性能が向上することがわかった。
論文参考訳（メタデータ） (2020-06-09T19:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。