論文の概要: A-VERT: Agnostic Verification with Embedding Ranking Targets
- arxiv url: http://arxiv.org/abs/2510.01469v1
- Date: Wed, 01 Oct 2025 21:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.876653
- Title: A-VERT: Agnostic Verification with Embedding Ranking Targets
- Title(参考訳): A-VERT: 埋め込みターゲットによる匿名検証
- Authors: Nicolás Aguirre, Ramiro Caso, Ramiro Rodríguez Colmeiro, Mauro Santelli, Joaquín Toranzo Calderón,
- Abstract要約: 構造自由評価法を提案する。
本手法は,対象候補と任意のLM生成テキストとをマッチングするために,意味埋め込み距離を利用する。
その結果, 回帰スコアは0.97, 精度は96%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic evaluation of Language Model (LM) responses is a critical piece in the development of benchmarks and metrics, both for model training and quality assessment of production model endpoints. The current approaches to response classification relies on methods that are too expensive (i.e. LLM-as-a-Judge) or that are far from real-world conditions (string-matching, logprob). In this paper, a structure-free evaluation method is presented. The method makes use of semantic embedding distances to match target candidates with arbitrary LM-generated text, resulting in a robust classification of the response at a relatively low compute cost (embedding models of less than $10B$ parameters). The results show a regression score of ~0.97 and an accuracy of ~96% against human annotators, tested over 3 data sets and 3 different LM architectures.
- Abstract(参考訳): 言語モデル(LM)応答の自動評価は、モデルトレーニングと生産モデルエンドポイントの品質評価の両方において、ベンチマークとメトリクスの開発において重要な要素である。
応答分類への現在のアプローチは、高価すぎる方法(LLM-as-a-Judge)や現実世界の条件(ストリングマッチング、ログプロブ)に頼っている。
本稿では,構造自由度評価法を提案する。
この手法は、対象候補と任意のLM生成テキストとのセマンティック埋め込み距離を利用して、比較的低い計算コストで応答を頑健に分類する(パラメータが10億ドル未満のモデルに組み込む)。
その結果、回帰スコアは0.97、精度は96%であり、3つのデータセットと3つの異なるLMアーキテクチャでテストされた。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - Agree to Disagree? A Meta-Evaluation of LLM Misgendering [84.77694174309183]
我々は,誤認識に対する確率および生成に基づく評価手法の体系的メタ評価を行う。
3つのファミリから6つのモデルのスイートを自動的に評価することにより、これらのメソッドがインスタンス、データセット、モデルレベルで互いに一致しないことが分かる。
また、誤認識行動は複雑であり、代名詞をはるかに超えており、人間の評価と本質的な相違が示唆されていることも示している。
論文 参考訳(メタデータ) (2025-04-23T19:52:02Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。