Fugu-MT 論文翻訳(概要): Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits

論文の概要: Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits

arxiv url: http://arxiv.org/abs/2301.00355v1
Date: Sun, 1 Jan 2023 05:56:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 13:58:34.705979
Title: Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits
Title（参考訳）: 第2の考え:テキスト編集から人間の価値を再調整する学習
Authors: Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu, and Soroush Vosoughi
Abstract要約: 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。バリューアンアライメントとバリューアライメントのテキスト間のチェーン・オブ・エジットをモデル化することにより、Second Thoughtは3つのバリューアライメントベンチマークデータセットで優れたパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 20.294733776492322
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
Abstract（参考訳）: 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。 lm微調整と強化学習による追加改良により,バリューアライメントとバリューアライメントテキストのチェーンオブエディットをモデル化することで,3つの値アライメントベンチマークデータセットにおいて優れたパフォーマンスを実現するだけでなく,少数のシナリオにおいて強力なヒューマンバリュートランスファー学習能力を発揮する。生成した編集ステップは、解釈性も向上し、インタラクティブなエラー訂正も容易になる。広範な評価は、その効果をさらに確認する。

関連論文リスト

Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文参考訳（メタデータ） (2025-07-17T04:48:54Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-01T07:29:03Z)
TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文参考訳（メタデータ） (2024-09-15T00:38:34Z)
CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。 ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文参考訳（メタデータ） (2024-07-15T13:51:37Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
Prefer to Classify: Improving Text Classifiers via Auxiliary Preference Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T04:04:47Z)
Learning to Simulate Natural Language Feedback for Interactive Semantic Parsing [30.609805601567178]
対話型意味解析のためのNLフィードバックをシミュレーションするタスクを提案する。私たちはそのタスクに新しいフィードバック評価器を伴います。我々のフィードバックシミュレータは、コストがかかる人間のアノテーションの完全なセットを用いてトレーニングされたように、同等のエラー修正性能を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-05-14T16:20:09Z)
Improving Contrastive Learning of Sentence Embeddings from AI Feedback [43.56070504980024]
教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができる。提案手法は,大規模な事前学習言語モデルからのAIフィードバックを利用して,詳細なサンプル類似度スコアを持つサンプルペアを構築する。実験結果から,本手法はいくつかの意味的テキスト類似性タスクにおいて,最先端の性能を実現することが示された。
論文参考訳（メタデータ） (2023-05-03T06:26:13Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)
Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-14T09:10:49Z)
A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文参考訳（メタデータ） (2022-02-28T14:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。