論文の概要: Measuring the Inconsistency of Large Language Models in Preferential Ranking
- arxiv url: http://arxiv.org/abs/2410.08851v1
- Date: Fri, 11 Oct 2024 14:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:32:15.563439
- Title: Measuring the Inconsistency of Large Language Models in Preferential Ranking
- Title(参考訳): 優先ランク付けにおける大規模言語モデルの整合性の測定
- Authors: Xiutian Zhao, Ke Wang, Wei Peng,
- Abstract要約: 本研究では、一貫した順序的嗜好を提供するための大規模言語モデルの能力について検討する。
順序理論に基づく一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な代替品からの独立性などの基準を概説する。
これらの基準を満たすことができず, 位置バイアスが強く, 移動度が低いことが示唆された。
- 参考スコア(独自算出の注目度): 6.723531714964794
- License:
- Abstract: Despite large language models' (LLMs) recent advancements, their bias and hallucination issues persist, and their ability to offer consistent preferential rankings remains underexplored. This study investigates the capacity of LLMs to provide consistent ordinal preferences, a crucial aspect in scenarios with dense decision space or lacking absolute answers. We introduce a formalization of consistency based on order theory, outlining criteria such as transitivity, asymmetry, reversibility, and independence from irrelevant alternatives. Our diagnostic experiments on selected state-of-the-art LLMs reveal their inability to meet these criteria, indicating a strong positional bias and poor transitivity, with preferences easily swayed by irrelevant alternatives. These findings highlight a significant inconsistency in LLM-generated preferential rankings, underscoring the need for further research to address these limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩にもかかわらず、彼らのバイアスと幻覚の問題は継続し、一貫した優先格付けを提供する能力は未定である。
本研究では,厳密な決定空間や絶対解が欠如しているシナリオにおいて,LLMが一貫した順序的嗜好を提供する能力について検討する。
順序理論に基づく一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な代替品からの独立性などの基準を概説する。
以上の結果から, 位置バイアスが強く, 移動性が低いこと, 選択が不適切な選択肢によって容易に揺れることが示唆された。
これらの知見は、LLMが生成する優先格付けにおいて重大な矛盾を浮き彫りにしており、これらの制限に対処するためのさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量である
グレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。
本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文 参考訳(メタデータ) (2024-06-17T19:29:39Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - K-Level Reasoning with Large Language Models [80.13817747270029]
急速に発展する環境における意思決定のための大規模言語モデル(LLM)の動的推論機能について検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力の明確で制御可能で正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Tree of Uncertain Thoughts Reasoning for Large Language Models [19.926757833392212]
大規模言語モデル(LLM)に適した推論フレームワークTouT(Tree of Uncertain Thoughts)を紹介します。
我々のTouTはモンテカルロ・ドロップアウトを効果的に利用し、これらの中間段階におけるLLMの多様な局所応答に関連する不確実性スコアを定量化する。
我々は,ゲーム・オブ・24(Game of 24)とミニ・クロスワード(Mini Crosswords)の2つの要求する計画課題について,厳密な実験を行った。
論文 参考訳(メタデータ) (2023-09-14T13:14:51Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。