論文の概要: Branching Out: Broadening AI Measurement and Evaluation with Measurement Trees
- arxiv url: http://arxiv.org/abs/2509.26632v1
- Date: Tue, 30 Sep 2025 17:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.243681
- Title: Branching Out: Broadening AI Measurement and Evaluation with Measurement Trees
- Title(参考訳): ブランチアウト:AI測定の拡大と測定木による評価
- Authors: Craig Greenberg, Patrick Hall, Theodore Jensen, Kristen Greene, Razvan Amironesei,
- Abstract要約: 測定木は階層的な有向グラフを生成し、各ノードはその子をユーザ定義のアグリゲーションメソッドで要約する。
定義と例を示し、大規模な測定演習を通じて実用性を実証し、オープンソースのPythonコードを提供する。
- 参考スコア(独自算出の注目度): 0.06524460254566904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces \textit{measurement trees}, a novel class of metrics designed to combine various constructs into an interpretable multi-level representation of a measurand. Unlike conventional metrics that yield single values, vectors, surfaces, or categories, measurement trees produce a hierarchical directed graph in which each node summarizes its children through user-defined aggregation methods. In response to recent calls to expand the scope of AI system evaluation, measurement trees enhance metric transparency and facilitate the integration of heterogeneous evidence, including, e.g., agentic, business, energy-efficiency, sociotechnical, or security signals. We present definitions and examples, demonstrate practical utility through a large-scale measurement exercise, and provide accompanying open-source Python code. By operationalizing a transparent approach to measurement of complex constructs, this work offers a principled foundation for broader and more interpretable AI evaluation.
- Abstract(参考訳): 本稿では,様々な構成要素を解釈可能なマルチレベル表現に組み合わせた新しいメトリクスのクラスである「textit{measurement Tree}」を紹介する。
単一の値、ベクトル、表面、カテゴリを生成する従来のメトリクスとは異なり、測定木は階層的な有向グラフを生成し、各ノードはその子をユーザ定義のアグリゲーションメソッドで要約する。
AIシステム評価の範囲を広げるための最近の要求に応じて、測定木はメートル法透過性を高め、エージェント、ビジネス、エネルギー効率、社会技術、セキュリティ信号などの異種証拠の統合を促進する。
定義と例を示し、大規模な測定演習を通じて実用性を実証し、オープンソースのPythonコードを提供する。
複雑な構成物を測定するための透明なアプローチを運用することにより、この研究はより広く解釈可能なAI評価のための原則化された基盤を提供する。
関連論文リスト
- Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - generAItor: Tree-in-the-Loop Text Generation for Language Model
Explainability and Adaptation [28.715001906405362]
大規模言語モデル(LLM)は、自動補完、補助的な書き込み、チャットベースのテキスト生成など、様々な下流タスクに広くデプロイされている。
本稿では,ビーム探索ツリーの視覚的表現を解析,説明,適応する中心的な要素とする,ループ内ツリーのアプローチを提案することで,この欠点に対処する。
視覚解析技術であるGenerAItorを,タスク固有のウィジェットで中央ビーム探索木を拡大し,ターゲットとした可視化とインタラクションの可能性を提供する。
論文 参考訳(メタデータ) (2024-03-12T13:09:15Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Comparing PCG metrics with Human Evaluation in Minecraft Settlement
Generation [0.0]
我々は、既存のPCGメトリクスを、生成したMinecraftの居留地に適用し、PCG文献にインスパイアされたいくつかの新しいメトリクスを開発し、その結果を既存の人間の評価と比較する。
目的は、これらのメトリクスがどのように異なるカテゴリの人間の評価スコアをキャプチャするか、メトリクスが別のゲームドメインにどのように一般化するか、そしてメトリクスがより複雑なアーティファクトにどう対処するかを分析することである。
論文 参考訳(メタデータ) (2021-07-06T08:07:24Z) - Tree-AMP: Compositional Inference with Tree Approximate Message Passing [23.509275850721778]
Tree-AMPは高次元木構造モデルにおける合成推論のためのピソンパッケージである。
このパッケージは、いくつかの近似メッセージパッシングアルゴリズムを研究するための統一フレームワークを提供する。
論文 参考訳(メタデータ) (2020-04-03T13:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。