論文の概要: We Should Evaluate Real-World Impact
- arxiv url: http://arxiv.org/abs/2507.05973v1
- Date: Tue, 08 Jul 2025 13:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.135597
- Title: We Should Evaluate Real-World Impact
- Title(参考訳): 実世界のインパクトを評価する
- Authors: Ehud Reiter,
- Abstract要約: ACLコミュニティは、NLPシステムの実際の影響を評価することにはほとんど関心がない。
ACLアンソロジーの構造化された調査は、おそらく0.1%の論文がそのような評価を含んでいることを示している。
- 参考スコア(独自算出の注目度): 5.943325136516882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ACL community has very little interest in evaluating the real-world impact of NLP systems. A structured survey of the ACL Anthology shows that perhaps 0.1% of its papers contain such evaluations; furthermore most papers which include impact evaluations present them very sketchily and instead focus on metric evaluations. NLP technology would be more useful and more quickly adopted if we seriously tried to understand and evaluate its real-world impact.
- Abstract(参考訳): ACLコミュニティは、NLPシステムの実際の影響を評価することにはほとんど関心がない。
ACLアンソロジーの構造化された調査は、おそらく0.1%の論文がそのような評価を含んでいることを示している。
NLP技術は、実世界への影響を真剣に理解し評価しようとすると、より有用かつ迅速に採用されるだろう。
関連論文リスト
- Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Using Scenario-Writing for Identifying and Mitigating Impacts of Generative AI [3.2566808526538873]
インパクトアセスメントは、AIデプロイメントの否定的および肯定的な影響を特定する一般的な方法として現れている。
しかし、現在の文献と影響評価の実践を批判的に問うことも不可欠である。
この挑発では、まず現在のインパクトアセスメントの文献を批判し、次に新しいアプローチを提案します。
論文 参考訳(メタデータ) (2024-10-31T07:48:58Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Individualized Policy Evaluation and Learning under Clustered Network Interference [3.8601741392210434]
本稿では,クラスタ化されたネットワーク干渉下での最適個別処理規則(ITR)の評価と学習の問題点について考察する。
ITRの実証性能を評価するための推定器を提案する。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-11-04T17:58:24Z) - Impacts Towards a comprehensive assessment of the book impact by
integrating multiple evaluation sources [6.568523667580746]
本稿では,複数の評価源を統合することで構築された評価システムに基づいて,書籍の影響を測定する。
様々な技術(トピック抽出、感情分析、テキスト分類など)を用いて、対応する評価指標を抽出した。
評価システムの信頼性を専門家評価の結果と比較して検証した。
論文 参考訳(メタデータ) (2021-07-22T03:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。