論文の概要: Reasons to Reject? Aligning Language Models with Judgments
- arxiv url: http://arxiv.org/abs/2312.14591v1
- Date: Fri, 22 Dec 2023 10:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:14:01.143826
- Title: Reasons to Reject? Aligning Language Models with Judgments
- Title(参考訳): 拒否する理由?
言語モデルと判断の整合
- Authors: Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi
- Abstract要約: コントラスト的異種訓練(CUT)は、判断に基づいて、きめ細かい不適切な内容の検出と修正を可能にする。
オンラインアライメントの結果は、CUTがモデル固有判断データを用いて反復的にLLMを整列できることを示している。
- 参考スコア(独自算出の注目度): 77.67252611252046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As humans, we consistently engage in interactions with our peers and receive
feedback in the form of natural language. This language feedback allows us to
reflect on our actions, maintain appropriate behavior, and rectify our errors.
The question arises naturally: can we use language feedback to align large
language models (LLMs)? In contrast to previous research that aligns LLMs with
reward or preference data, we present the first systematic exploration of
alignment through the lens of language feedback (i.e., judgment). We commence
with an in-depth investigation of potential methods that can be adapted for
aligning LLMs with judgments, revealing that these methods are unable to fully
capitalize on the judgments. To facilitate more effective utilization of
judgments, we propose a novel framework, Contrastive Unlikelihood Training
(CUT), that allows for fine-grained inappropriate content detection and
correction based on judgments. Our offline alignment results show that, with
merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B
DaVinci003 and surpass the best baseline by 52.34 points on AlpacaEval. The
online alignment results demonstrate that CUT can align LLMs (LLaMA2-chat-13b)
in an iterative fashion using model-specific judgment data, with a steady
performance improvement from 81.09 to 91.36 points on AlpacaEval. Our analysis
further suggests that judgments exhibit greater potential than rewards for LLM
alignment and warrant future research.
- Abstract(参考訳): 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。
この言語フィードバックによって、行動の反映、適切な行動の維持、エラーの修正が可能になります。
大きな言語モデル(llm)を調整するために、言語フィードバックを使用できますか?
llmを報酬や嗜好データと整合させる以前の研究とは対照的に、言語フィードバック(すなわち判断)のレンズを通してアライメントを体系的に探索する最初の研究を示す。
我々は,LSMと判断の整合性に適応できる潜在的な方法の詳細な調査を開始し,これらの方法が判断を十分に活用できないことを明らかにした。
判断をより効果的に活用するために,判断に基づく不適切な内容の検出と修正を可能にする新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。
オフラインアライメントの結果は、市販の判断データ1317件だけで、カット(llama2-13b)が175bのdavinci003を上回り、alpacaevalの最高基準を52.34ポイント上回ったことを示している。
オンラインアライメントの結果、cut はモデル固有の判断データを用いて反復的に llms (llama2-chat-13b) を調整でき、alpacaeval の 81.09 から 91.36 ポイントの安定した性能向上が得られた。
分析の結果,LLMアライメントの報奨や今後の研究の保証よりも高い可能性が示唆された。
関連論文リスト
- Monitoring AI-Modified Content at Scale: A Case Study on the Impact of
ChatGPT on AI Conference Peer Reviews [52.60513069182062]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。