論文の概要: Verbosity Bias in Preference Labeling by Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10076v1
- Date: Mon, 16 Oct 2023 05:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:17:18.277219
- Title: Verbosity Bias in Preference Labeling by Large Language Models
- Title(参考訳): 大規模言語モデルによる選好ラベル付けにおける動詞バイアス
- Authors: Keita Saito, Akifumi Wachi, Koki Wataoka, Youhei Akimoto
- Abstract要約: 大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
- 参考スコア(独自算出の注目度): 10.242500241407466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have witnessed a remarkable
surge in prevalence, altering the landscape of natural language processing and
machine learning. One key factor in improving the performance of LLMs is
alignment with humans achieved with Reinforcement Learning from Human Feedback
(RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies
are investigating the replacement of human feedback with feedback from other
LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the
biases that come along with evaluating LLMs with other LLMs and take a closer
look into verbosity bias -- a bias where LLMs sometimes prefer more verbose
answers even if they have similar qualities. We see that in our problem
setting, GPT-4 prefers longer answers more than humans. We also propose a
metric to measure this bias.
- Abstract(参考訳): 近年、大規模言語モデル(llm)は、自然言語処理と機械学習の展望を変えて、有病率の著しい増加を目撃している。
ヒトフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)によって達成された人間と、GPT-4, Bardなどの多くのLLMの性能向上の要因である。
さらに,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる他のLLMからのフィードバックによる人間のフィードバックの置き換えについても検討している。
我々は、他のllmとllmを評価することによって生じるバイアスを調べ、同じ性質であってもllmがより冗長な答えを好むバイアスである動詞バイアスについて詳しく調べる。
我々の問題設定では、GPT-4は人間よりも長い答えを好む。
このバイアスを測定するための指標も提案する。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - Large Language Models are biased to overestimate profoundness [0.0]
本研究は, GPT-4 およびその他の様々な大規模言語モデル (LLM) を用いて, 日常的, 動機的, 疑似発声文の深度を判定する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 有意なステートメントとステートメントの相関関係が認められた。
論文 参考訳(メタデータ) (2023-10-22T21:33:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。