論文の概要: InFerActive: Towards Scalable Human Evaluation of Large Language Models through Interactive Inference
- arxiv url: http://arxiv.org/abs/2512.10234v1
- Date: Thu, 11 Dec 2025 02:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.17068
- Title: InFerActive: Towards Scalable Human Evaluation of Large Language Models through Interactive Inference
- Title(参考訳): InFerActive: 対話型推論による大規模言語モデルのスケーラブルなヒューマン評価を目指して
- Authors: Junhyeong Hwangbo, Soohyun Lee, Minsoo Cheong, Hyeon Jeon, Jinwook Seo,
- Abstract要約: InFerActiveは、スケーラブルな人体評価のための対話型推論システムである。
InFerActiveは評価効率を大幅に改善し、モデル行動のより包括的な評価を可能にすることを実証する。
- 参考スコア(独自算出の注目度): 14.903507875179033
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human evaluation remains the gold standard for evaluating outputs of Large Language Models (LLMs). The current evaluation paradigm reviews numerous individual responses, leading to significant scalability challenges. LLM outputs can be more efficiently represented as a tree structure, reflecting their autoregressive generation process and stochastic token selection. However, conventional tree visualization cannot scale to the exponentially large trees generated by modern sampling methods of LLMs. To address this problem, we present InFerActive, an interactive inference system for scalable human evaluation. InFerActive enables on-demand exploration through probability-based filtering and evaluation features, while bridging the semantic gap between computational tokens and human-readable text through adaptive visualization techniques. Through a technical evaluation and user study (N=12), we demonstrate that InFerActive significantly improves evaluation efficiency and enables more comprehensive assessment of model behavior. We further conduct expert case studies that demonstrate InFerActive's practical applicability and potential for transforming LLM evaluation workflows.
- Abstract(参考訳): 人間の評価は、Large Language Models (LLMs) の出力を評価するためのゴールドスタンダードのままである。
現在の評価パラダイムは、多数の個別のレスポンスをレビューし、大きなスケーラビリティの課題につながります。
LLM出力は、その自己回帰生成プロセスと確率的トークン選択を反映して、ツリー構造としてより効率的に表現することができる。
しかし, 従来の樹木の可視化は, LLMの近代的なサンプリング法によって生成される指数関数的に大きな木にスケールできない。
この問題に対処するために,スケーラブルな人間評価のための対話型推論システムInFerActiveを提案する。
InFerActiveは、確率ベースのフィルタリングと評価機能によるオンデマンドな探索を可能にし、適応的な可視化技術により、計算トークンと人間可読テキスト間のセマンティックギャップを埋める。
技術的評価とユーザスタディ(N=12)を通じて、InFerActiveは評価効率を大幅に改善し、モデル行動のより包括的な評価を可能にすることを示した。
さらに、我々は、InFerActiveの実用性とLLM評価ワークフローを変換する可能性を示す専門家ケーススタディを実施している。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Maximizing Signal in Human-Model Preference Alignment [0.0]
本稿では、エンドユーザーがMLモデルによる決定に同意する必要がある場合、モデルが好みを表すデータに基づいて訓練され、評価されるべきである、と論じる。
評価手法のベストプラクティスに固執することで,ラベル付け不一致のノイズを最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-03-06T19:10:57Z) - PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。
本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。
LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。