論文の概要: Benchmarking AI for low-resource contexts: Thinking beyond leaderboards
- arxiv url: http://arxiv.org/abs/2605.28508v1
- Date: Wed, 27 May 2026 14:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.098052
- Title: Benchmarking AI for low-resource contexts: Thinking beyond leaderboards
- Title(参考訳): 低リソースコンテキストのためのAIベンチマーク - リーダボードを越えて考える
- Authors: Aakash Pant, Kavya Shah, Apoorv Agnihotri, Sneha Nikam, Prasaanth Balraj, Nakul Jain,
- Abstract要約: 既存のAI評価プラクティスは、低リソース環境でシステムが実際にどのように機能するかをキャプチャするのに失敗することが多い。
システムとアプリケーションタイプ間の互換性を維持するための共有レポートフレームワークを提案する。
我々は、政策立案者、ドナー、実装者のための簡潔で行動可能な報告アーティファクトの必要性を強調します。
- 参考スコア(独自算出の注目度): 0.39583175274885346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing AI evaluation practices often fail to capture how systems actually perform in low-resource environments, where operational constraints shape usability as much as model quality. Through a structured analysis of existing benchmark families across speech, chat/RAG, and vision systems, we identify critical gaps between laboratory evaluation practices and real-world deployment conditions in low-resource environments. We argue that the meaningful unit of assessment is the deployed system rather than an isolated model and that effective evaluation frameworks must integrate task performance with deployment conditions such as noisy inputs, code-switching, intermittent connectivity, low-end hardware, and domain shift. At the same time, benchmarks should recognize that different application classes require distinct evaluation profiles rather than a single aggregate score that obscures operational differences. To support practical decision-making, we propose a shared reporting framework that preserves comparability across systems and application types while remaining sensitive to deployment context. Finally, we emphasize the need for concise and actionable reporting artifacts for policymakers, donors, and implementers, including standardized one-page benchmark cards, deployment profiles, and explicit documentation of failure handling procedures and human oversight mechanisms.
- Abstract(参考訳): 既存のAI評価プラクティスは、運用上の制約がモデル品質だけでなくユーザビリティを形作る低リソース環境において、システムが実際にどのように機能するかをキャプチャするのに失敗することが多い。
音声,チャット/RAG,ビジョンシステム間での既存のベンチマークファミリの構造解析により,低リソース環境における実験室評価の実践と実環境の展開条件との重大なギャップを同定する。
評価の有意義な単位は、独立したモデルではなくデプロイシステムであり、効果的な評価フレームワークは、ノイズの多い入力、コードスイッチング、断続接続、ローエンドハードウェア、ドメインシフトなどのデプロイメント条件にタスクパフォーマンスを統合する必要がある、と我々は主張する。
同時に、ベンチマークは、異なるアプリケーションクラスが、運用上の違いを曖昧にする単一の集計スコアではなく、異なる評価プロファイルを必要とすることを認識すべきである。
実践的な意思決定を支援するため,システムとアプリケーションタイプ間の互換性を維持しつつ,デプロイメントコンテキストに敏感な共有レポートフレームワークを提案する。
最後に、標準化された1ページのベンチマークカード、デプロイメントプロファイル、障害処理手順とヒューマン監視機構の明示的なドキュメントを含む、ポリシー作成者、ドナー、実装者のための簡潔で実行可能なレポートアーティファクトの必要性を強調します。
関連論文リスト
- A Unified Framework for the Evaluation of LLM Agentic Capabilities [36.43241368835721]
LLMエージェント能力の公平な評価のための統一的なフレームワークを提案する。
統合された構成システムによって駆動されるこのフレームワークは、様々なベンチマークを標準化された命令-ツール-環境フォーマットに統合する。
我々は15モデルで400Kロールアウトと5Bトークンに対して大規模な実証分析を行う。
論文 参考訳(メタデータ) (2026-05-27T03:20:45Z) - Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。
本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T15:52:22Z) - AlphaEval: Evaluating Agents in Production [32.52315519888507]
AlphaEvalは、コアビジネスにAIエージェントをデプロイする7つの企業から提供された94のタスクを、実運用環境でベンチマークしたものです。
モデル中心のベンチマークとは異なり、AlphaEvalは完全なエージェント製品を商用システムとして評価し、モデルレベルの評価には見えないパフォーマンスを捉えている。
論文 参考訳(メタデータ) (2026-04-14T00:43:20Z) - UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。
UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文 参考訳(メタデータ) (2026-03-24T13:01:31Z) - CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents [15.119045051735633]
コンピュータ・ユースエージェント(CUA)は、人間のコンピュータインタラクションにおける新しいパラダイムとして登場し、ハイレベルな自然言語命令を知覚することで、デスクトップ環境におけるタスクの自律実行を可能にしている。
既存の評価パイプラインは、静的ベンチマーク、ルールベースの成功チェック、手作業によるインスペクションに依存している。
観察可能な相互作用から直接CUAタスク完了を評価する自律監査機として視覚言語モデル(VLM)について検討する。
現状のVLMは高い精度とキャリブレーションを達成するが、全ての監査員はより複雑な性能劣化を示す。
論文 参考訳(メタデータ) (2026-03-11T09:28:41Z) - Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems [0.0]
企業向けマルチターンRAGシステムのためのケースアウェア LLM-as-a-Judge 評価フレームワークを提案する。
このフレームワークは、検索品質を分離する8つの運用上の基準を使用して、各ターンを評価し、忠実度、答えユーティリティ、精度の整合性、ケース/ワークフローアライメントを判定する。
論文 参考訳(メタデータ) (2026-02-23T21:37:06Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。