論文の概要: Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability
Analysis against Human Performance
- arxiv url: http://arxiv.org/abs/2304.05372v1
- Date: Sun, 9 Apr 2023 04:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 13:47:10.118763
- Title: Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability
Analysis against Human Performance
- Title(参考訳): ChatGPTとBardはアライメントアイテムを生成できるか?
ヒューマンパフォーマンスに対する信頼性分析
- Authors: Abdolvahab Khademi
- Abstract要約: ChatGPTとBardはLarge Language Models (LLM)に基づくAIチャットボットである
教育において、これらのAI技術はアセスメントと教育の応用のためにテストされてきた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that
are slated to promise different applications in diverse areas. In education,
these AI technologies have been tested for applications in assessment and
teaching. In assessment, AI has long been used in automated essay scoring and
automated item generation. One psychometric property that these tools must have
to assist or replace humans in assessment is high reliability in terms of
agreement between AI scores and human raters. In this paper, we measure the
reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and
trained humans in perceiving and rating the complexity of writing prompts.
Intraclass correlation (ICC) as a performance metric showed that the
inter-reliability of both the OpenAI ChatGPT and the Google Bard were low
against the gold standard of human ratings.
- Abstract(参考訳): ChatGPTとBardはLarge Language Models(LLM)に基づいたAIチャットボットで、さまざまな分野で異なるアプリケーションを約束する予定である。
教育において、これらのAI技術は評価と教育の応用のためにテストされてきた。
評価において、AIは長い間、自動エッセイ評価と自動アイテム生成に使われてきた。
これらのツールが人間をアセスメントで支援し、置き換えなければならないという心理的特性の一つは、AIスコアと人間のレイパーとの合意の点で高い信頼性である。
本稿では,OpenAI ChatGPとGoogle Bard LLMsツールの,経験者および訓練された人間に対する信頼性を測定し,書込みプロンプトの複雑さを認識・評価する。
性能指標としてのクラス内相関 (ICC) は, OpenAI ChatGPT と Google Bard の相互信頼度が人間格付けのゴールド基準に対して低いことを示した。
関連論文リスト
- Distributed agency in second language learning and teaching through generative AI [0.0]
ChatGPTは、テキストまたは音声形式のチャットを通じて非公式な第二言語プラクティスを提供することができる。
インストラクタはAIを使って、さまざまなメディアで学習と評価材料を構築することができる。
論文 参考訳(メタデータ) (2024-03-29T14:55:40Z) - Developing generative AI chatbots conceptual framework for higher education [0.0]
本研究は, 高等教育におけるAI生成物の影響を解明し, 効果的に実施するための重要な要素を明らかにすることを目的とする。
結果は、AIチャットボットが学生のエンゲージメントを改善し、教育プロセスを合理化し、管理と研究の業務をサポートするためにどれだけのことができるかを実証する。
しかし、不愉快な学生の感情、AIが生み出す素材の正確性への疑念、新しい技術への不安と神経質さなど、明らかな困難もある。
論文 参考訳(メタデータ) (2024-03-28T10:40:26Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Perception, performance, and detectability of conversational artificial
intelligence across 32 university courses [15.642614735026106]
大学レベル32科目におけるChatGPTの成績を比較した。
また,ChatGPTの成績は,多くの科目における生徒の成績と同等であることがわかった。
このツールを使用する学生や、これを盗作として扱う教育者の間では、新たなコンセンサスが高まっている。
論文 参考訳(メタデータ) (2023-05-07T10:37:51Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。