論文の概要: Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals
- arxiv url: http://arxiv.org/abs/2505.13972v1
- Date: Tue, 20 May 2025 06:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.778058
- Title: Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals
- Title(参考訳): 真実かツイストか? LLM 法における信頼性ラベルフリップ評価のための最適モデル選択
- Authors: Qianli Wang, Van Bach Nguyen, Nils Feldhus, Luis Felipe Villa-Arenas, Christin Seifert, Sebastian Möller, Vera Schmitt,
- Abstract要約: ジャッジモデルは、大きな言語モデルに対して生成されたカウンターファクトの妥当性を評価するために使用される。
独立な非微調整関係を持つ判定モデルは,最も信頼性の高いラベルフリップ評価を提供することを示す。
その結果、最も効果的な判断モデルとユーザスタディから得られる結果とのギャップは、依然としてかなり大きいことが判明した。
- 参考スコア(独自算出の注目度): 12.846807471105064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual examples are widely employed to enhance the performance and robustness of large language models (LLMs) through counterfactual data augmentation (CDA). However, the selection of the judge model used to evaluate label flipping, the primary metric for assessing the validity of generated counterfactuals for CDA, yields inconsistent results. To decipher this, we define four types of relationships between the counterfactual generator and judge models. Through extensive experiments involving two state-of-the-art LLM-based methods, three datasets, five generator models, and 15 judge models, complemented by a user study (n = 90), we demonstrate that judge models with an independent, non-fine-tuned relationship to the generator model provide the most reliable label flipping evaluations. Relationships between the generator and judge models, which are closely aligned with the user study for CDA, result in better model performance and robustness. Nevertheless, we find that the gap between the most effective judge models and the results obtained from the user study remains considerably large. This suggests that a fully automated pipeline for CDA may be inadequate and requires human intervention.
- Abstract(参考訳): 対実データ拡張(CDA)を通じて、大規模言語モデル(LLM)の性能と堅牢性を高めるために、対実データ例が広く採用されている。
しかし、ラベルフリップを評価するために使用される判定モデルの選択は、CDAの生成した反事実の妥当性を評価するための主要な指標であり、矛盾する結果をもたらす。
これを解読するために, 対実生成器と判定モデルの間の関係を4種類定義する。
3つのデータセット、5つのジェネレータモデル、15の判断モデルをユーザスタディ(n = 90)で補完する2つの最先端LCMベースの手法を含む広範な実験を通して、ジェネレータモデルと独立に調整されていない判断モデルにより、最も信頼性の高いラベルフリップ評価が提供されることを示した。
CDAのユーザスタディと密接に一致しているジェネレータとジャッジモデルの関係は、モデル性能とロバスト性の向上をもたらす。
それにもかかわらず、最も効果的な判断モデルとユーザスタディから得られる結果とのギャップはかなり大きいことが判明した。
これは、完全に自動化されたCDAパイプラインが不十分であり、人間の介入を必要とする可能性を示唆している。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models [23.91197677628145]
本研究では,標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価選択フレームワークを提案する。
具体的には、Fr'echet Distance(FD)とInception Score(IS)のメトリクスを考慮した、MABに基づく生成モデルの選定を開発する。
実験の結果, 深部生成モデルの標本効率評価と選択に対するMABアプローチの有効性が示唆された。
論文 参考訳(メタデータ) (2024-06-11T16:57:48Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Multidimensional Item Response Theory in the Style of Collaborative
Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。
協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。
本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文 参考訳(メタデータ) (2023-01-03T00:56:27Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。