Fugu-MT 論文翻訳(概要): Reasons to Reject? Aligning Language Models with Judgments

論文の概要: Reasons to Reject? Aligning Language Models with Judgments

arxiv url: http://arxiv.org/abs/2312.14591v2
Date: Mon, 27 May 2024 12:22:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 08:15:32.436367
Title: Reasons to Reject? Aligning Language Models with Judgments
Title（参考訳）: 拒否する理由? 判断を伴う言語モデルのアライメント
Authors: Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi,
Abstract要約: 言語フィードバックを用いた大規模言語モデル(LLM)の整合性について検討する。本稿では,不適切なコンテンツ検出と判断に基づく修正が可能なコントラスト型異種訓練(Contrastive Unlikelihood Training, CUT)を提案する。この結果から、CUTは175BのDaVinci003を破り、AlpacaEvalの48.51ポイントを抜いた。
参考スコア（独自算出の注目度）: 72.39858230784002
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 48.51 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment.
Abstract（参考訳）: 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。この言語フィードバックにより、適切な動作を維持し、潜在的なエラーを修正できます。言語フィードバックを使って大きな言語モデル(LLM)を調整できるだろうか? LLMをスカラー報酬と整合させる以前の研究とは対照的に、私たちは言語フィードバックのレンズ(すなわち判断)を通してアライメントを初めて体系的に検討した。まず,LLMと判断の整合性に適応可能な潜在的手法の詳細な検討から,これらの手法が判断に完全に乗じることができないことを明らかにする。判断をより効果的に活用するために,判断に基づく不適切なコンテンツ検出と修正を行うための新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。以上の結果から,CUT (LLaMA2-13b) が175B DaVinci003 を破り,AlpacaEval の48.51ポイントを超えることが示唆された。 CUT (LLaMA2-chat-13b) は、最新のモデル固有の判断を用いてLCMを反復的に調整し、AlpacaEvalの81.09から91.68ポイントのパフォーマンスを向上させる。さらなる分析により、LLMアライメントにおける評価は報酬よりも大きな可能性を秘めていることが示唆された。

関連論文リスト

Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究では,大規模言語モデル(LLM)が「誤解を招く」命令を与えられた場合,推論や真理よりも次の命令を優先するかどうかを考察する。本稿では,学習前アライメントと学習後アライメントの関連性に新たな光を当てる「反射判断」という新しい指標を提案する。
論文参考訳（メタデータ） (2024-08-27T19:27:43Z)
LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文参考訳（メタデータ） (2024-08-25T18:47:55Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。