論文の概要: Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study
- arxiv url: http://arxiv.org/abs/2409.07476v1
- Date: Wed, 28 Aug 2024 11:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:01:16.818363
- Title: Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study
- Title(参考訳): テストの質と品質のための責任あるAI:Duolingo English Testを事例として
- Authors: Jill Burstein, Geoffrey T. LaFlair, Kevin Yancey, Alina A. von Davier, Ravit Dotan,
- Abstract要約: この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いて、ケーススタディを提示している。
DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じる。
これらのプラクティスは、妥当性と信頼性、公平性、プライバシとセキュリティ、透明性と説明責任の基準という倫理的原則にどのように対処するかを示している。
- 参考スコア(独自算出の注目度): 0.06657612504660106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) creates opportunities for assessments, such as efficiencies for item generation and scoring of spoken and written responses. At the same time, it poses risks (such as bias in AI-generated item content). Responsible AI (RAI) practices aim to mitigate risks associated with AI. This chapter addresses the critical role of RAI practices in achieving test quality (appropriateness of test score inferences), and test equity (fairness to all test takers). To illustrate, the chapter presents a case study using the Duolingo English Test (DET), an AI-powered, high-stakes English language assessment. The chapter discusses the DET RAI standards, their development and their relationship to domain-agnostic RAI principles. Further, it provides examples of specific RAI practices, showing how these practices meaningfully address the ethical principles of validity and reliability, fairness, privacy and security, and transparency and accountability standards to ensure test equity and quality.
- Abstract(参考訳): 人工知能(AI)は、アイテム生成の効率性や、音声や文字による応答のスコアリングなど、評価のための機会を作成する。
同時に、AI生成アイテムコンテンツのバイアスのような)リスクも生じます。
責任AI(RAI)プラクティスは、AIに関連するリスクを軽減することを目的としている。
この章では、テスト品質(テストスコア推論の適切性)、テストエクイティ(テスト受験者全員の公正性)を達成する上で、RAIプラクティスが果たす重要な役割について論じる。
説明するために、この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いたケーススタディを提示している。
この章では、DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じている。
さらに、これらのプラクティスが、妥当性と信頼性、公正性、プライバシとセキュリティ、透明性と説明責任の基準といった倫理的原則に、テストのエクイティと品質を確実にするための意味のある対処方法を示す、特定のRAIプラクティスの例も提供する。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - The Fundamental Rights Impact Assessment (FRIA) in the AI Act: Roots, legal obligations and key elements for a model template [55.2480439325792]
基本権利影響評価(FRIA)の理論的・方法論的検討における既存のギャップを埋めることを目的とする。
この記事では、FRIAのモデルテンプレートの主要なビルディングブロックについて概説する。
これは、AIが人権と完全に整合していることを保証するために、他の国家および国際規制イニシアチブの青写真として機能する。
論文 参考訳(メタデータ) (2024-11-07T11:55:55Z) - Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。
このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文 参考訳(メタデータ) (2024-11-04T20:20:29Z) - Responsible AI Question Bank: A Comprehensive Tool for AI Risk Assessment [18.966590454042272]
この調査では、さまざまなAIイニシアチブをサポートするために設計された包括的なフレームワークとツールであるResponsible AI (RAI) Question Bankを紹介した。
公正性、透明性、説明責任といったAI倫理原則を構造化された質問形式に統合することで、RAI質問銀行は潜在的なリスクの特定を支援する。
論文 参考訳(メタデータ) (2024-08-02T22:40:20Z) - Quality Assurance for Artificial Intelligence: A Study of Industrial
Concerns, Challenges and Best Practices [14.222404866137756]
我々は,AIシステムの品質保証(QA4AI)の課題とベストプラクティスについて報告する。
以上の結果から, 最も重要な特性として正しさが示唆され, モデル関連性, 効率性, 展開性などが示唆された。
AI開発の各段階で、21のQA4AIプラクティスを特定します。
論文 参考訳(メタデータ) (2024-02-26T08:31:45Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Test-takers have a say: understanding the implications of the use of AI
in language tests [12.430886405811757]
本研究は,テストテッカーの観点から,言語テストにおけるAI導入の影響を明らかにすることを目的とした,最初の実証的研究である。
私たちは、AI統合が公正さ、一貫性、可用性の知覚を高める可能性があると認識しています。
信頼性と対話性に関する不信を提起し、その後、テストテイカーの行動や幸福に影響を与えるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T10:28:59Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。