論文の概要: MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis
- arxiv url: http://arxiv.org/abs/2603.10287v1
- Date: Wed, 11 Mar 2026 00:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.728347
- Title: MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis
- Title(参考訳): マルチウェイPAM: LLM-as-a-Judgeスコア解析のためのメドイド周囲のマルチウェイ分割
- Authors: Chihiro Watanabe, Jingyu Sun,
- Abstract要約: 我々は,与えられたデータテンソルの各モードに対するクラスタメンバシップとメドイドを推定する,新しいテンソルクラスタリング手法であるMultiwayPAMを開発した。
2つの実用的なデータセットのスコアテンソルに適用することで,MultiwayPAMの有効性を実験的に示す。
- 参考スコア(独自算出の注目度): 3.8908016393731533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-Judge is a flexible framework for text evaluation, which allows us to obtain scores for the quality of a given text from various perspectives by changing the prompt template. Two main challenges in using LLM-as-a-Judge are computational cost of LLM inference, especially when evaluating a large number of texts, and inherent bias of an LLM evaluator. To address these issues and reveal the structure of score bias caused by an LLM evaluator, we propose to apply a tensor clustering method to a given LLM-as-a-Judge score tensor, whose entries are the scores for different combinations of questions, answerers, and evaluators. Specifically, we develop a new tensor clustering method MultiwayPAM, with which we can simultaneously estimate the cluster membership and the medoids for each mode of a given data tensor. By observing the medoids obtained by MultiwayPAM, we can gain knowledge about the membership of each question/answerer/evaluator cluster. We experimentally show the effectiveness of MultiwayPAM by applying it to the score tensors for two practical datasets.
- Abstract(参考訳): LLM-as-a-Judgeはテキスト評価のためのフレキシブルなフレームワークであり、プロンプトテンプレートを変更することで、与えられたテキストの品質のスコアを得ることができる。
LLM-as-a-Judgeを使用する際の主な課題は、特に大量のテキストを評価する場合のLLM推論の計算コストと、LLM評価器固有のバイアスである。
これらの問題に対処し, LLM評価器によるスコアバイアスの構造を明らかにするため, LLM-as-a-Judgeスコアテンソルにテンソルクラスタリング手法を適用することを提案する。
具体的には,与えられたデータテンソルの各モードに対して,クラスタメンバシップとメドイドを同時に推定できる,新しいテンソルクラスタリング手法であるMultiwayPAMを開発した。
また,MultiwayPAMによって得られたメドイドを観察することにより,各質問/回答/評価クラスタのメンバシップに関する知識を得ることができる。
2つの実用的なデータセットのスコアテンソルに適用することで,MultiwayPAMの有効性を実験的に示す。
関連論文リスト
- PCS: Perceived Confidence Scoring of Black Box LLMs with Metamorphic Relations [13.99995125334968]
メタモーフィックリレーショナル(MR)を利用してテキスト入力を分類するLLMの信頼性を評価する手法を提案する。
MRは意味論的に等価だが、テキスト的に異なる入力バージョンを生成する。
予測されたラベルの周波数に基づいて、認識された信頼度スコア(PCS)を算出する。
論文 参考訳(メタデータ) (2025-02-11T02:25:44Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。
最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。
この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-14T07:13:47Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。