論文の概要: Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions
- arxiv url: http://arxiv.org/abs/2509.11206v2
- Date: Tue, 16 Sep 2025 02:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 13:40:22.872468
- Title: Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions
- Title(参考訳): Evalet: 関数への出力の断片化による大規模言語モデルの評価
- Authors: Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim,
- Abstract要約: 本稿では,各出力をキーフラグメントに分解し,各フラグメントが評価基準に対して機能する修辞関数を解釈する機能的フラグメント化を提案する。
Evaletでは,多くのアウトプットにまたがるフラグメントレベルの関数を可視化し,検査,評価,評価の比較を支援するインタラクティブシステムとして,このアプローチをインスタンス化する。
- 参考スコア(独自算出の注目度): 26.356994721447283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Practitioners increasingly rely on Large Language Models (LLMs) to evaluate generative AI outputs through "LLM-as-a-Judge" approaches. However, these methods produce holistic scores that obscure which specific elements influenced the assessments. We propose functional fragmentation, a method that dissects each output into key fragments and interprets the rhetoric functions that each fragment serves relative to evaluation criteria -- surfacing the elements of interest and revealing how they fulfill or hinder user goals. We instantiate this approach in Evalet, an interactive system that visualizes fragment-level functions across many outputs to support inspection, rating, and comparison of evaluations. A user study (N=10) found that, while practitioners struggled to validate holistic scores, our approach helped them identify 48% more evaluation misalignments. This helped them calibrate trust in LLM evaluations and rely on them to find more actionable issues in model outputs. Our work shifts LLM evaluation from quantitative scores toward qualitative, fine-grained analysis of model behavior.
- Abstract(参考訳): 実践者は、"LLM-as-a-Judge"アプローチを通じて生成AI出力を評価するために、Large Language Models (LLM) にますます依存している。
しかし、これらの手法は、どの特定の要素が評価に影響を及ぼすのかを曖昧にするような全体論的なスコアを生成する。
本稿では,各出力をキーフラグメントに分解し,各フラグメントが評価基準に対して機能する修辞関数を解釈する機能的フラグメント化を提案する。
Evaletでは,多くのアウトプットにまたがるフラグメントレベルの関数を可視化し,検査,評価,評価の比較を支援するインタラクティブシステムとして,このアプローチをインスタンス化する。
ユーザスタディ (N=10) では, 総合的な評価に苦慮する実践者に対して, 評価ミスの48%が有効であった。
これにより、LLM評価の信頼性を校正し、モデル出力においてより実用的な問題を見つけるのにそれらに依存した。
我々の研究は、LCMの評価を定量的スコアから定性的、きめ細かいモデル行動分析にシフトさせる。
関連論文リスト
- Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。