論文の概要: Development and Benchmarking of a Blended Human-AI Qualitative Research Assistant
- arxiv url: http://arxiv.org/abs/2512.00009v1
- Date: Tue, 14 Oct 2025 21:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.37817
- Title: Development and Benchmarking of a Blended Human-AI Qualitative Research Assistant
- Title(参考訳): Blended Human-AI Qualitative Research Assistantの開発とベンチマーク
- Authors: Joseph Matveyenko, James Liu, John David Parsons, Prateek Puri,
- Abstract要約: MuseはAIを使ったインタラクティブな質的研究システムだ。
十分に特定されたコードに対して、MuseとCohenの$0.71の人間の間には、ラッター間の信頼性がある。
また、障害モードを特定し、将来の改善をガイドし、人間のバイアスを修正する能力を示すために、堅牢なエラー解析も行います。
- 参考スコア(独自算出の注目度): 1.170789976854236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative research emphasizes constructing meaning through iterative engagement with textual data. Traditionally this human-driven process requires navigating coder fatigue and interpretative drift, thus posing challenges when scaling analysis to larger, more complex datasets. Computational approaches to augment qualitative research have been met with skepticism, partly due to their inability to replicate the nuance, context-awareness, and sophistication of human analysis. Large language models, however, present new opportunities to automate aspects of qualitative analysis while upholding rigor and research quality in important ways. To assess their benefits and limitations - and build trust among qualitative researchers - these approaches must be rigorously benchmarked against human-generated datasets. In this work, we benchmark Muse, an interactive, AI-powered qualitative research system that allows researchers to identify themes and annotate datasets, finding an inter-rater reliability between Muse and humans of Cohen's $κ$ = 0.71 for well-specified codes. We also conduct robust error analysis to identify failure mode, guide future improvements, and demonstrate the capacity to correct for human bias.
- Abstract(参考訳): 質的研究は、テキストデータとの反復的エンゲージメントを通して意味を構築することを強調する。
従来、この人間主導のプロセスでは、コーダの疲労と解釈的ドリフトをナビゲートする必要があります。
定性的研究を増強するための計算的アプローチは懐疑論に満ちているが、その理由の一部は、人間の分析のニュアンス、文脈認識、高度化を再現できないことによる。
しかし、大規模言語モデルは、厳密さと研究品質を重要な方法で維持しつつ、質的分析の側面を自動化する新たな機会を提供する。
定性的な研究者の間で利益と限界を評価し、信頼を構築するためには、これらのアプローチを人間生成データセットに対して厳格にベンチマークする必要がある。
本研究では、研究者がテーマを識別し、データセットに注釈を付けることができる、AIを使ったインタラクティブな定性的な研究システムであるMuseをベンチマークし、十分に特定されたコードに対して、MuseとCohenの$κ$ = 0.71の人間間のラター間信頼性を見つける。
また、障害モードを特定し、将来の改善をガイドし、人間のバイアスを修正する能力を示すために、堅牢なエラー解析も行います。
関連論文リスト
- The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - A Computational Method for Measuring "Open Codes" in Qualitative Analysis [44.39424825305388]
本稿では,人間と生成AI(GAI)による帰納的符号化結果を測定するための理論インフォームド計算手法を提案する。
これは、各コーダのコントリビューションを、Coverage、Overlap、Noverety、Divergenceの4つの新しいメトリクスを使用して、マージした結果に対して測定する。
本研究は,人間とAIの質的分析における方法論的厳密性を確保するための信頼性の高い経路を提供する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts [0.0]
AIフラグメントを備えた膨大な数の検出器とコレクションが出現している。
しかし、そのような検出器の品質は野生では劇的に低下する傾向にある。
本稿では,AI生成フラグメントを含むデータセットの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:57Z) - Challenges and Future Directions of Data-Centric AI Alignment [22.165745901158804]
現在のアライメント手法は主にアルゴリズムと損失関数の設計に重点を置いているが、しばしばデータの重要な役割を過小評価している。
本稿では、データ中心のAIアライメントへのシフトを提唱し、AIシステムの整合に使用されるデータの品質と代表性を高める必要性を強調した。
論文 参考訳(メタデータ) (2024-10-02T19:03:42Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - Interactive Multi-Objective Evolutionary Optimization of Software
Architectures [0.0]
人間をループに入れることで、検索ベースのソフトウェアエンジニアリング分野に新たな課題がもたらされる。
本稿では,人間の判断を探索プロセスに統合するための基礎として,インタラクティブな進化的計算がいかに役立つかを考察する。
論文 参考訳(メタデータ) (2024-01-08T19:15:40Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。