論文の概要: Verbosity Bias in Preference Labeling by Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10076v1
- Date: Mon, 16 Oct 2023 05:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:17:18.277219
- Title: Verbosity Bias in Preference Labeling by Large Language Models
- Title(参考訳): 大規模言語モデルによる選好ラベル付けにおける動詞バイアス
- Authors: Keita Saito, Akifumi Wachi, Koki Wataoka, Youhei Akimoto
- Abstract要約: 大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
- 参考スコア(独自算出の注目度): 10.242500241407466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have witnessed a remarkable
surge in prevalence, altering the landscape of natural language processing and
machine learning. One key factor in improving the performance of LLMs is
alignment with humans achieved with Reinforcement Learning from Human Feedback
(RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies
are investigating the replacement of human feedback with feedback from other
LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the
biases that come along with evaluating LLMs with other LLMs and take a closer
look into verbosity bias -- a bias where LLMs sometimes prefer more verbose
answers even if they have similar qualities. We see that in our problem
setting, GPT-4 prefers longer answers more than humans. We also propose a
metric to measure this bias.
- Abstract(参考訳): 近年、大規模言語モデル(llm)は、自然言語処理と機械学習の展望を変えて、有病率の著しい増加を目撃している。
ヒトフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)によって達成された人間と、GPT-4, Bardなどの多くのLLMの性能向上の要因である。
さらに,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる他のLLMからのフィードバックによる人間のフィードバックの置き換えについても検討している。
我々は、他のllmとllmを評価することによって生じるバイアスを調べ、同じ性質であってもllmがより冗長な答えを好むバイアスである動詞バイアスについて詳しく調べる。
我々の問題設定では、GPT-4は人間よりも長い答えを好む。
このバイアスを測定するための指標も提案する。
関連論文リスト
- Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - How do Large Language Models Navigate Conflicts between Honesty and
Helpfulness? [14.706111954807021]
人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。
人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。
GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
論文 参考訳(メタデータ) (2024-02-11T19:13:26Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Large Language Models are biased to overestimate profoundness [0.0]
本研究は, GPT-4 およびその他の様々な大規模言語モデル (LLM) を用いて, 日常的, 動機的, 疑似発声文の深度を判定する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 有意なステートメントとステートメントの相関関係が認められた。
論文 参考訳(メタデータ) (2023-10-22T21:33:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。