論文の概要: Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study
- arxiv url: http://arxiv.org/abs/2409.07476v1
- Date: Wed, 28 Aug 2024 11:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:01:16.818363
- Title: Responsible AI for Test Equity and Quality: The Duolingo English Test as a Case Study
- Title(参考訳): テストの質と品質のための責任あるAI:Duolingo English Testを事例として
- Authors: Jill Burstein, Geoffrey T. LaFlair, Kevin Yancey, Alina A. von Davier, Ravit Dotan,
- Abstract要約: この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いて、ケーススタディを提示している。
DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じる。
これらのプラクティスは、妥当性と信頼性、公平性、プライバシとセキュリティ、透明性と説明責任の基準という倫理的原則にどのように対処するかを示している。
- 参考スコア(独自算出の注目度): 0.06657612504660106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) creates opportunities for assessments, such as efficiencies for item generation and scoring of spoken and written responses. At the same time, it poses risks (such as bias in AI-generated item content). Responsible AI (RAI) practices aim to mitigate risks associated with AI. This chapter addresses the critical role of RAI practices in achieving test quality (appropriateness of test score inferences), and test equity (fairness to all test takers). To illustrate, the chapter presents a case study using the Duolingo English Test (DET), an AI-powered, high-stakes English language assessment. The chapter discusses the DET RAI standards, their development and their relationship to domain-agnostic RAI principles. Further, it provides examples of specific RAI practices, showing how these practices meaningfully address the ethical principles of validity and reliability, fairness, privacy and security, and transparency and accountability standards to ensure test equity and quality.
- Abstract(参考訳): 人工知能(AI)は、アイテム生成の効率性や、音声や文字による応答のスコアリングなど、評価のための機会を作成する。
同時に、AI生成アイテムコンテンツのバイアスのような)リスクも生じます。
責任AI(RAI)プラクティスは、AIに関連するリスクを軽減することを目的としている。
この章では、テスト品質(テストスコア推論の適切性)、テストエクイティ(テスト受験者全員の公正性)を達成する上で、RAIプラクティスが果たす重要な役割について論じる。
説明するために、この章では、AIを利用したハイテイクな英語アセスメントであるDuolingo English Test (DET)を用いたケーススタディを提示している。
この章では、DET RAI標準、その開発、およびドメインに依存しないRAI原則との関係について論じている。
さらに、これらのプラクティスが、妥当性と信頼性、公正性、プライバシとセキュリティ、透明性と説明責任の基準といった倫理的原則に、テストのエクイティと品質を確実にするための意味のある対処方法を示す、特定のRAIプラクティスの例も提供する。
関連論文リスト
- Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。
このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文 参考訳(メタデータ) (2024-11-04T20:20:29Z) - Responsible AI Question Bank: A Comprehensive Tool for AI Risk Assessment [17.026921603767722]
この調査では、さまざまなAIイニシアチブをサポートするために設計された包括的なフレームワークとツールであるResponsible AI (RAI) Question Bankを紹介した。
公正性、透明性、説明責任といったAI倫理原則を構造化された質問形式に統合することで、RAI質問銀行は潜在的なリスクの特定を支援する。
論文 参考訳(メタデータ) (2024-08-02T22:40:20Z) - Quality Assurance for Artificial Intelligence: A Study of Industrial
Concerns, Challenges and Best Practices [14.222404866137756]
我々は,AIシステムの品質保証(QA4AI)の課題とベストプラクティスについて報告する。
以上の結果から, 最も重要な特性として正しさが示唆され, モデル関連性, 効率性, 展開性などが示唆された。
AI開発の各段階で、21のQA4AIプラクティスを特定します。
論文 参考訳(メタデータ) (2024-02-26T08:31:45Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Test-takers have a say: understanding the implications of the use of AI
in language tests [12.430886405811757]
本研究は,テストテッカーの観点から,言語テストにおけるAI導入の影響を明らかにすることを目的とした,最初の実証的研究である。
私たちは、AI統合が公正さ、一貫性、可用性の知覚を高める可能性があると認識しています。
信頼性と対話性に関する不信を提起し、その後、テストテイカーの行動や幸福に影響を与えるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T10:28:59Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。