Fugu-MT 論文翻訳(概要): Reasons to Reject? Aligning Language Models with Judgments

論文の概要: Reasons to Reject? Aligning Language Models with Judgments

arxiv url: http://arxiv.org/abs/2312.14591v1
Date: Fri, 22 Dec 2023 10:29:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 15:14:01.143826
Title: Reasons to Reject? Aligning Language Models with Judgments
Title（参考訳）: 拒否する理由? 言語モデルと判断の整合
Authors: Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi
Abstract要約: コントラスト的異種訓練(CUT)は、判断に基づいて、きめ細かい不適切な内容の検出と修正を可能にする。オンラインアライメントの結果は、CUTがモデル固有判断データを用いて反復的にLLMを整列できることを示している。
参考スコア（独自算出の注目度）: 77.67252611252046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As humans, we consistently engage in interactions with our peers and receive feedback in the form of natural language. This language feedback allows us to reflect on our actions, maintain appropriate behavior, and rectify our errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with reward or preference data, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We commence with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods are unable to fully capitalize on the judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our offline alignment results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 52.34 points on AlpacaEval. The online alignment results demonstrate that CUT can align LLMs (LLaMA2-chat-13b) in an iterative fashion using model-specific judgment data, with a steady performance improvement from 81.09 to 91.36 points on AlpacaEval. Our analysis further suggests that judgments exhibit greater potential than rewards for LLM alignment and warrant future research.
Abstract（参考訳）: 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。この言語フィードバックによって、行動の反映、適切な行動の維持、エラーの修正が可能になります。大きな言語モデル(llm)を調整するために、言語フィードバックを使用できますか? llmを報酬や嗜好データと整合させる以前の研究とは対照的に、言語フィードバック(すなわち判断)のレンズを通してアライメントを体系的に探索する最初の研究を示す。我々は,LSMと判断の整合性に適応できる潜在的な方法の詳細な調査を開始し,これらの方法が判断を十分に活用できないことを明らかにした。判断をより効果的に活用するために,判断に基づく不適切な内容の検出と修正を可能にする新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。オフラインアライメントの結果は、市販の判断データ1317件だけで、カット(llama2-13b)が175bのdavinci003を上回り、alpacaevalの最高基準を52.34ポイント上回ったことを示している。オンラインアライメントの結果、cut はモデル固有の判断データを用いて反復的に llms (llama2-chat-13b) を調整でき、alpacaeval の 81.09 から 91.36 ポイントの安定した性能向上が得られた。分析の結果,LLMアライメントの報奨や今後の研究の保証よりも高い可能性が示唆された。

関連論文リスト

Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究では,大規模言語モデル(LLM)が「誤解を招く」命令を与えられた場合,推論や真理よりも次の命令を優先するかどうかを考察する。本稿では,学習前アライメントと学習後アライメントの関連性に新たな光を当てる「反射判断」という新しい指標を提案する。
論文参考訳（メタデータ） (2024-08-27T19:27:43Z)
LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文参考訳（メタデータ） (2024-08-25T18:47:55Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。