Fugu-MT 論文翻訳(概要): Specification Overfitting in Artificial Intelligence

論文の概要: Specification Overfitting in Artificial Intelligence

arxiv url: http://arxiv.org/abs/2403.08425v1
Date: Wed, 13 Mar 2024 11:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:43:36.490922
Title: Specification Overfitting in Artificial Intelligence
Title（参考訳）: 人工知能における仕様オーバーフィッティング
Authors: Benjamin Roth, Pedro Henrique Luz de Araujo, Yuxi Xia, Saskia Kaltenbrunner and Christoph Korab
Abstract要約: 機械学習(ML)と人工知能(AI)のアプローチは、その固有のバイアスと、制御の欠如、説明責任、透明性のためにしばしば批判される。公平性や堅牢性といった高レベルの要件は、具体的な仕様メトリクスに形式化する必要があります。本稿では,高レベルの要求とタスク性能の低下に対して,特定の指標に過度に注目するシナリオである仕様オーバーフィッティングを定義する。
参考スコア（独自算出の注目度）: 1.9625166101601141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) and artificial intelligence (AI) approaches are often criticized for their inherent bias and for their lack of control, accountability, and transparency. Consequently, regulatory bodies struggle with containing this technology's potential negative side effects. High-level requirements such as fairness and robustness need to be formalized into concrete specification metrics, imperfect proxies that capture isolated aspects of the underlying requirements. Given possible trade-offs between different metrics and their vulnerability to over-optimization, integrating specification metrics in system development processes is not trivial. This paper defines specification overfitting, a scenario where systems focus excessively on specified metrics to the detriment of high-level requirements and task performance. We present an extensive literature survey to categorize how researchers propose, measure, and optimize specification metrics in several AI fields (e.g., natural language processing, computer vision, reinforcement learning). Using a keyword-based search on papers from major AI conferences and journals between 2018 and mid-2023, we identify and analyze 74 papers that propose or optimize specification metrics. We find that although most papers implicitly address specification overfitting (e.g., by reporting more than one specification metric), they rarely discuss which role specification metrics should play in system development or explicitly define the scope and assumptions behind metric formulations.
Abstract（参考訳）: 機械学習(ML)と人工知能(AI)のアプローチは、その固有のバイアスと、制御の欠如、説明責任、透明性のためにしばしば批判される。その結果、規制機関は、この技術の潜在的な負の副作用を含むことに苦慮している。フェアネスやロバストネスといった高レベルの要件は、具体的な仕様メトリクス、不完全なプロキシに形式化されて、基盤となる要件の分離された側面をキャプチャする必要があります。異なるメトリクス間のトレードオフの可能性と過度な最適化の脆弱性を考えると、システム開発プロセスに仕様メトリクスを統合することは簡単ではありません。本稿では,高レベルの要求とタスク性能の低下に対して,特定の指標に過度に注目するシナリオである仕様オーバーフィッティングを定義する。我々は、研究者がいくつかのAI分野(自然言語処理、コンピュータビジョン、強化学習など)の仕様メトリクスを提案し、測定し、最適化する方法を分類するために、広範な文献調査を行う。 2018年から2023年半ばにかけて、主要なAIカンファレンスやジャーナルの論文に対するキーワードベースの検索を使用して、仕様メトリクスの提案や最適化を行う74の論文を特定し、分析する。ほとんどの論文では、仕様の過剰適合(例えば、1つ以上の仕様のメトリクスを報告することで)を暗黙的に解決していますが、システム開発においてどの役割の仕様のメトリクスが機能すべきかを議論したり、メトリクスの定式化の背後にあるスコープと仮定を明確に定義したりすることはめったにありません。

関連論文リスト

From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文参考訳（メタデータ） (2025-12-22T18:58:12Z)
ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文参考訳（メタデータ） (2025-10-12T11:11:20Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
Requirements-Driven Automated Software Testing: A Systematic Review [12.953746641112518]
この体系的な文献は、要求入力フォーマット、変換技術、生成されたテストアーティファクト、評価方法、一般的な制限の現状を批判的に検証する。本研究は,機能要件,モデルベース仕様,自然言語フォーマットの優位性に注目した。テストケース、構造化されたテキスト形式、要求カバレッジは一般的だが、完全な自動化は依然として稀である。
論文参考訳（メタデータ） (2025-02-25T23:13:09Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Pushing the Boundary: Specialising Deep Configuration Performance Learning [0.0]
この論文は、構成性能モデリングにおけるディープラーニング技術に関する体系的な文献レビューから始まる。第一の知識のギャップは、どの符号化方式が優れているかについての理解の欠如である。第二の知識ギャップは、構成のランドスケープから受け継がれた空間である。
論文参考訳（メタデータ） (2024-07-02T22:59:19Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文参考訳（メタデータ） (2024-01-26T18:12:25Z)
Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文参考訳（メタデータ） (2023-11-22T04:43:16Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Truthful Meta-Explanations for Local Interpretability of Machine Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文参考訳（メタデータ） (2022-12-07T08:32:04Z)
Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文参考訳（メタデータ） (2022-06-03T15:56:51Z)
Bias and unfairness in machine learning models: a systematic literature review [43.55994393060723]
本研究の目的は,機械学習モデルにおけるバイアスと不公平性に関する既存の知識を検討することである。 The Systematic Literature Reviewによると、2017年から2022年にかけて、Scoops、IEEE Xplore、Web of Science、Google Scholarの知識ベースで40の論文が出版された。
論文参考訳（メタデータ） (2022-02-16T16:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。