論文の概要: Second Thoughts are Best: Learning to Re-Align With Human Values from
Text Edits
- arxiv url: http://arxiv.org/abs/2301.00355v1
- Date: Sun, 1 Jan 2023 05:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:58:34.705979
- Title: Second Thoughts are Best: Learning to Re-Align With Human Values from
Text Edits
- Title(参考訳): 第2の考え:テキスト編集から人間の価値を再調整する学習
- Authors: Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu, and Soroush
Vosoughi
- Abstract要約: 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。
バリューアンアライメントとバリューアライメントのテキスト間のチェーン・オブ・エジットをモデル化することにより、Second Thoughtは3つのバリューアライメントベンチマークデータセットで優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.294733776492322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Second Thought, a new learning paradigm that enables language
models (LMs) to re-align with human values. By modeling the chain-of-edits
between value-unaligned and value-aligned text, with LM fine-tuning and
additional refinement through reinforcement learning, Second Thought not only
achieves superior performance in three value alignment benchmark datasets but
also shows strong human-value transfer learning ability in few-shot scenarios.
The generated editing steps also offer better interpretability and ease for
interactive error correction. Extensive human evaluations further confirm its
effectiveness.
- Abstract(参考訳): 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。
lm微調整と強化学習による追加改良により,バリューアライメントとバリューアライメントテキストのチェーンオブエディットをモデル化することで,3つの値アライメントベンチマークデータセットにおいて優れたパフォーマンスを実現するだけでなく,少数のシナリオにおいて強力なヒューマンバリュートランスファー学習能力を発揮する。
生成した編集ステップは、解釈性も向上し、インタラクティブなエラー訂正も容易になる。
広範な評価は、その効果をさらに確認する。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Learning to Simulate Natural Language Feedback for Interactive Semantic
Parsing [30.609805601567178]
対話型意味解析のためのNLフィードバックをシミュレーションするタスクを提案する。
私たちはそのタスクに新しいフィードバック評価器を伴います。
我々のフィードバックシミュレータは、コストがかかる人間のアノテーションの完全なセットを用いてトレーニングされたように、同等のエラー修正性能を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-14T16:20:09Z) - Improving Contrastive Learning of Sentence Embeddings from AI Feedback [43.56070504980024]
教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができる。
提案手法は,大規模な事前学習言語モデルからのAIフィードバックを利用して,詳細なサンプル類似度スコアを持つサンプルペアを構築する。
実験結果から,本手法はいくつかの意味的テキスト類似性タスクにおいて,最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2023-05-03T06:26:13Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。