論文の概要: Improving scripts with a memory of natural feedback
- arxiv url: http://arxiv.org/abs/2112.09737v1
- Date: Thu, 16 Dec 2021 07:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 10:07:35.809966
- Title: Improving scripts with a memory of natural feedback
- Title(参考訳): 自然なフィードバックのメモリによるスクリプトの改善
- Authors: Niket Tandon, Aman Madaan, Peter Clark, Yiming Yang
- Abstract要約: 出力中のエラーに関するフィードバックが増大する動的メモリアーキテクチャを作成します。
スクリプト生成タスクでは、モデルがフィードバックを効果的に適用することを経験的に示す。
これは、デプロイされたモデルを強化するための第一歩であり、ユーティリティを拡大する可能性がある。
- 参考スコア(独自算出の注目度): 38.81097942561449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can an end-user provide feedback if a deployed structured prediction
model generates incorrect output? Our goal is to allow users to correct errors
directly through interaction, without retraining, by giving feedback on the
model's output. We create a dynamic memory architecture with a growing memory
of feedbacks about errors in the output. Given a new, unseen input, our model
can use feedback from a similar, past erroneous state. On a script generation
task, we show empirically that the model learns to apply feedback effectively
(up to 30 points improvement), while avoiding similar past mistakes after
deployment (up to 10 points improvement on an unseen set). This is a first step
towards strengthening deployed models, potentially broadening their utility.
- Abstract(参考訳): デプロイされた構造化予測モデルが誤った出力を生成する場合、エンドユーザはどのようにフィードバックを提供できるか?
私たちの目標は、モデルのアウトプットにフィードバックを与えることで、リトレーニングすることなく、インタラクションを通じてエラーを直接修正できるようにすることです。
私たちは、出力中のエラーに関するフィードバックのメモリを増やして、動的メモリアーキテクチャを作成します。
新しい目に見えない入力があれば、我々のモデルは同じような過去の誤った状態からのフィードバックを使うことができる。
スクリプト生成タスクでは、モデルがフィードバックを効果的に適用すること(最大30ポイントの改善)を学習し、配置後の同じ過去のミス(見えないセットでは最大10ポイント改善)を回避できることを実証的に示す。
これはデプロイされたモデルを強化し、有用性を高めるための第一歩です。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - What Will My Model Forget? Forecasting Forgotten Examples in Language Model Refinement [38.93348195407474]
ワイルドにデプロイされた言語モデルはエラーを起こします。
修正されたエラーインスタンスでモデルを更新することは、破滅的な忘れを引き起こす。
本稿では,事前学習例のソフトマックス前のロジットスコアの変化がオンライン学習例に類似しているという観察に基づいて,部分的に解釈可能な予測モデルを提案する。
論文 参考訳(メタデータ) (2024-02-02T19:43:15Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - XMD: An End-to-End Framework for Interactive Explanation-Based Debugging
of NLP Models [33.81019305179569]
説明に基づくモデルデバッギングは,モデル動作の説明を人間に示すことによって,突発的なバイアスを解決することを目的としている。
我々は、説明に基づくモデルデバッグのための、最初のオープンソースのエンドツーエンドフレームワークであるXMDを提案する。
XMDは、モデルがユーザーのフィードバックと一致するように規則化することで、モデルをリアルタイムで更新する。
論文 参考訳(メタデータ) (2022-10-30T23:09:09Z) - Towards Teachable Reasoning Systems [29.59387051046722]
質問応答のための授業可能な推論システム(QA)を開発した。
私たちのアプローチは3つあります。 まず、生成された推論の連鎖は、システムの内部の信念によってどのように答えが示唆されるかを示しています。
第二に、ユーザーは説明と対話して誤ったモデル信念を特定し、修正を行うことができる。
第3に、そのような補正の動的なメモリでモデルを増強する。
論文 参考訳(メタデータ) (2022-04-27T17:15:07Z) - Memory-assisted prompt editing to improve GPT-3 after deployment [55.62352349324132]
シミュレーションされた)ユーザが、デプロイされたGPT-3を対話的に教える方法を示し、その精度を基本的な語彙タスクで2倍にする。
私たちのシンプルなアイデアは、デプロイされたモデルを強化するための第一歩です。
論文 参考訳(メタデータ) (2022-01-16T10:11:37Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。