論文の概要: Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation
- arxiv url: http://arxiv.org/abs/2604.25580v1
- Date: Tue, 28 Apr 2026 12:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.860758
- Title: Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation
- Title(参考訳): Bye Bye Perspective API:NLP, CSS, LLM評価における計測インフラのレッスン
- Authors: David Hartmann, Manuel Tonneau, Angelie Kraft, LK Seiling, Dimitri Staufer, Pieter Delobelle, Jan Fillies, Anna Ricarda Luther, Jan Batzner, Mareike Lisker,
- Abstract要約: 2026年末のパースペクティブAPIは、自動毒性測定のデファクトスタンダードとして機能するものを捨てる。
私たちは、この単一のプロプライエタリなツール上に構築されたコミュニティの構造的依存について文書化します。
我々は、独立して、有効で、適応可能で、再現可能な毒性とヘイトスピーチ測定インフラを求めている。
- 参考スコア(独自算出の注目度): 5.257562413412994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The closure of Perspective API at the end of 2026 discards what has functioned as the de facto standard for automated toxicity measurement in NLP, CSS, and LLM evaluation research. We document the structural dependence that the communities built on this single proprietary tool and discuss how this dependence caused epistemic problems that have affected - and will likely continue to affect - collective research efforts. Perspective's model was periodically updated without versioning or disclosure, its annotation structure reflected a single corporate operationalisation of a contested concept, and its scores were used simultaneously as an evaluation target and an evaluation standard. Its closure leaves behind non-updatable benchmarks, irreproducible results, and ultimately a field at risk of perpetuating these issues by turning to closed-source LLMs. We use Perspective's announced termination as an opportunity to call for an independent, valid, adaptable, and reproducible toxicity and hate speech measurement infrastructure, with the technical and governance requirements outlined in this paper.
- Abstract(参考訳): 2026年末のパースペクティブAPIの閉鎖は、NLP、CSS、LLM評価研究における自動毒性測定のデファクトスタンダードとして機能するものを捨てる。
我々は、この単一のプロプライエタリなツール上に構築されたコミュニティの構造的依存を文書化し、この依存が、どのようにして、集団的な研究活動に影響を及ぼし、今後も影響しうる、疫学的な問題を引き起こしたかを議論する。
パースペクティブのモデルは、バージョニングや公開なしに定期的に更新され、そのアノテーション構造は、競合するコンセプトの単一の企業運用を反映し、評価対象と評価基準として同時に使用された。
そのクロージャは、改善不可能なベンチマーク、再現不可能な結果、そして最終的には、クローズドソース LLM に転換することでこれらの問題を永続させるリスクのある分野を残している。
我々は、独立的で、有効で、適応可能で、再現可能な毒性とヘイトスピーチ測定のインフラを呼び出す機会として、パースペクティブのアナウンスされた終了を、この記事では技術的およびガバナンスの要件を概説する。
関連論文リスト
- From Pixels to Urban Policy-Intelligence: Recovering Legacy Effects of Redlining with a Multimodal LLM [0.0]
本稿では,マルチモーダル大規模言語モデル(MLLM)が都市における計測能力を拡大し,場所に基づく政策介入の追跡を支援する方法について述べる。
GPT-4oは、ストリートビュー画像上に構築された、合理的に見積もられたパイプラインを用いて、近隣の貧困と樹冠を推定し、1930年代のリライニングの遺産を評価する準実験的な設計に組み込む。
論文 参考訳(メタデータ) (2025-09-18T16:42:01Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - LLM-based relevance assessment still can't replace human relevance assessment [12.829823535454505]
近年の研究では、情報検索における関連性評価のための大規模言語モデル(LLM)が、人間の判断に匹敵する評価をもたらすことが示唆されている。
Upadhyayらは、LLMに基づく関連性評価は、TRECスタイルの評価における従来の人間関連性評価を完全に置き換えることができると主張している。
本稿ではこの主張を批判的に検証し、この結論の妥当性を損なう実践的・理論的制約を強調した。
論文 参考訳(メタデータ) (2024-12-22T20:45:15Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Socio-Emotional Response Generation: A Human Evaluation Protocol for LLM-Based Conversational Systems [9.101091541480434]
本稿では、応答生成の前に社会情緒戦略を計画する中間段階を含むニューラルアーキテクチャを提案する。
本研究は, 予測された戦略ラベルの列を予測し, このシーケンスを用いて応答を生成することにより, 直接的なエンドツーエンド生成方式よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-26T08:15:36Z) - OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。
我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。
提案手法に基づいてLCMを最適化する方法を示す。
論文 参考訳(メタデータ) (2024-10-31T07:48:44Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。