論文の概要: From Performance to Purpose: A Sociotechnical Taxonomy for Evaluating Large Language Model Utility
- arxiv url: http://arxiv.org/abs/2602.20513v1
- Date: Tue, 24 Feb 2026 03:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.592418
- Title: From Performance to Purpose: A Sociotechnical Taxonomy for Evaluating Large Language Model Utility
- Title(参考訳): パフォーマンスから目的へ:大規模言語モデルの実用性を評価するための社会技術分類学
- Authors: Gavin Levinson, Keith Feldman,
- Abstract要約: 我々は、パフォーマンス、インタラクション、オペレーション、ガバナンスの4つの領域にわたるユーティリティ評価を構築する包括的なフレームワークを紹介します。
LUXは階層的に、主題的に整合した次元とコンポーネントに編成され、それぞれがメトリクスで構成されています。
各コンポーネントを関連するメトリクスのリポジトリに接続することで、フレームワークの探索を支援するために、外部動的Webツールが提供される。
- 参考スコア(独自算出の注目度): 0.2209921757303168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to improve at completing discrete tasks, they are being integrated into increasingly complex and diverse real-world systems. However, task-level success alone does not establish a model's fit for use in practice. In applied, high-stakes settings, LLM effectiveness is driven by a wider array of sociotechnical determinants that extend beyond conventional performance measures. Although a growing set of metrics capture many of these considerations, they are rarely organized in a way that supports consistent evaluation, leaving no unified taxonomy for assessing and comparing LLM utility across use cases. To address this gap, we introduce the Language Model Utility Taxonomy (LUX), a comprehensive framework that structures utility evaluation across four domains: performance, interaction, operations, and governance. Within each domain, LUX is organized hierarchically into thematically aligned dimensions and components, each grounded in metrics that enable quantitative comparison and alignment of model selection with intended use. In addition, an external dynamic web tool is provided to support exploration of the framework by connecting each component to a repository of relevant metrics (factors) for applied evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は離散的なタスクの完了後も改善を続けており、ますます複雑で多様な現実世界システムに統合されている。
しかし、タスクレベルの成功だけでは、実際に使うのに適したモデルを確立しません。
適用例では、LLMの有効性は、従来のパフォーマンス対策を超えて拡張される、より広範な社会技術的決定要因によって駆動される。
メトリクスの増大はこれらの考慮事項の多くを捉えているが、一貫した評価をサポートする方法で組織化されることは滅多にない。
このギャップに対処するために、Language Model Utility Taxonomy (LUX)を紹介します。
各ドメイン内では、LUXは階層的に数学的に整合した次元とコンポーネントに編成され、それぞれが意図された使用とモデル選択の量的比較とアライメントを可能にするメトリクスに基礎を置いている。
さらに、各コンポーネントを関連するメトリクス(要素)のリポジトリに接続して、適用評価を行うことにより、フレームワークの探索を支援するための外部動的Webツールも提供される。
関連論文リスト
- Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [33.250579401886206]
本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。
本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文 参考訳(メタデータ) (2025-03-05T06:44:38Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Understanding and Optimizing Agentic Workflows via Shapley value [49.508008396810624]
エージェント構成の分析と最適化に協調ゲーム理論を利用する最初のフレームワークであるShapleyFlowを紹介した。
ShagleyFlowは、各コンポーネントのコントリビューションの詳細な属性を可能にし、タスク固有の最適設定の識別を容易にする。
論文 参考訳(メタデータ) (2025-02-01T18:07:34Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。