Fugu-MT 論文翻訳(概要): Measuring the Inconsistency of Large Language Models in Preferential Ranking

論文の概要: Measuring the Inconsistency of Large Language Models in Preferential Ranking

arxiv url: http://arxiv.org/abs/2410.08851v1
Date: Fri, 11 Oct 2024 14:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 21:35:51.520605
Title: Measuring the Inconsistency of Large Language Models in Preferential Ranking
Title（参考訳）: 優先ランク付けにおける大規模言語モデルの整合性の測定
Authors: Xiutian Zhao, Ke Wang, Wei Peng,
Abstract要約: 本研究では、一貫した順序的嗜好を提供するための大規模言語モデルの能力について検討する。順序理論に基づく一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な代替品からの独立性などの基準を概説する。これらの基準を満たすことができず, 位置バイアスが強く, 移動度が低いことが示唆された。
参考スコア（独自算出の注目度）: 6.723531714964794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite large language models' (LLMs) recent advancements, their bias and hallucination issues persist, and their ability to offer consistent preferential rankings remains underexplored. This study investigates the capacity of LLMs to provide consistent ordinal preferences, a crucial aspect in scenarios with dense decision space or lacking absolute answers. We introduce a formalization of consistency based on order theory, outlining criteria such as transitivity, asymmetry, reversibility, and independence from irrelevant alternatives. Our diagnostic experiments on selected state-of-the-art LLMs reveal their inability to meet these criteria, indicating a strong positional bias and poor transitivity, with preferences easily swayed by irrelevant alternatives. These findings highlight a significant inconsistency in LLM-generated preferential rankings, underscoring the need for further research to address these limitations.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩にもかかわらず、彼らのバイアスと幻覚の問題は継続し、一貫した優先格付けを提供する能力は未定である。本研究では,厳密な決定空間や絶対解が欠如しているシナリオにおいて,LLMが一貫した順序的嗜好を提供する能力について検討する。順序理論に基づく一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な代替品からの独立性などの基準を概説する。以上の結果から, 位置バイアスが強く, 移動性が低いこと, 選択が不適切な選択肢によって容易に揺れることが示唆された。これらの知見は、LLMが生成する優先格付けにおいて重大な矛盾を浮き彫りにしており、これらの制限に対処するためのさらなる研究の必要性を浮き彫りにしている。

関連論文リスト

Fragile Preferences: A Deep Dive Into Order Effects in Large Language Models [2.3936613583728064]
複数の大規模言語モデル(LLM)にまたがる位置バイアスの包括的調査を行う。選択肢が高品質である場合、モデルは優位性バイアスを示すが、オプションの品質が低い場合は後者の選択肢を好む。表面張力と判断の真の歪みを区別するために、ペアの選好を頑丈、脆弱、あるいは無関心と分類する枠組みを導入する。
論文参考訳（メタデータ） (2025-06-17T01:14:22Z)
Towards Large Language Models with Self-Consistent Natural Language Explanations [11.085839471231552]
大きな言語モデル(LLM)は、解釈容易なパスを提供するようだ。しかし、研究によると、これらのポストホックな説明は真の決定過程を誤って表現していることが多い。
論文参考訳（メタデータ） (2025-06-09T08:06:33Z)
Matching Markets Meet LLMs: Algorithmic Reasoning with Ranked Preferences [12.277072346419748]
私たちは、リソース割り当てやライドシェアリングといったアプリケーションを支える中核的なフレームワークであるマッチング市場について研究しています。我々は、嗜好に基づく推論タスクの階層構造に基づいて、いくつかの最先端モデルを評価する。驚くべきことに、先進的な推論を持つトップパフォーマンスモデルでさえ、大きな市場の不安定性を解決するのに苦労している。
論文参考訳（メタデータ） (2025-06-04T21:51:15Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文参考訳（メタデータ） (2025-02-01T04:24:47Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文参考訳（メタデータ） (2024-11-26T11:32:43Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文参考訳（メタデータ） (2024-10-13T03:43:18Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文参考訳（メタデータ） (2024-10-03T04:34:04Z)
Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量であるグレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文参考訳（メタデータ） (2024-06-17T19:29:39Z)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳（メタデータ） (2024-06-17T09:48:53Z)
Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。 BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文参考訳（メタデータ） (2024-06-14T13:32:43Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。