論文の概要: Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
- arxiv url: http://arxiv.org/abs/2512.20352v1
- Date: Tue, 23 Dec 2025 13:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.888782
- Title: Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
- Title(参考訳): 二重信頼性指標を用いたマルチLLM理論解析-CohenのKappaと意味的類似性を組み合わせた質的研究検証
- Authors: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop,
- Abstract要約: 従来のラター間合意法では、複数のヒューマンコーダが必要であり、時間集約的であり、しばしば適度な一貫性をもたらす。
アンサンブル検証と2つの信頼性指標を組み合わせたLLMに基づくテーマ解析のための多視点検証フレームワークを提案する。
Geminiは6つのコンセンサステーマ(50~83%の一貫性)、GPT-4oは5つのテーマ、Claude 4は4つのテーマを識別する。
- 参考スコア(独自算出の注目度): 4.527396444851612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa ($κ$) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability ($κ= 0.907$, cosine=95.3%), followed by GPT-4o ($κ= 0.853$, cosine=92.6%) and Claude ($κ= 0.842$, cosine=92.1%). All three models achieve a high agreement ($κ> 0.80$), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
- Abstract(参考訳): 従来のレータ間合意手法では、複数のヒューマンコーダが必要であり、時間集約的であり、しばしば適度な一貫性をもたらす。
本稿では,LLMに基づくテーマ分析のための多視点検証フレームワークについて,アンサンブル検証と2つの信頼性指標を組み合わせて述べる: 相互合意のためのCohen's Kappa(κ$)と意味的一貫性のためのコサイン類似性。
我々のフレームワークは、設定可能な分析パラメータ(1-6種、温度0.0-2.0)を可能にし、可変置換によるカスタムプロンプト構造をサポートし、任意のJSONフォーマット間でコンセンサステーマ抽出を提供する。
概念実証として, サイケデリック・アート・セラピー・インタヴューにおける3つのLLM(Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet)の評価を行い, モデル毎に6回の独立したランニングを行った。
その結果、ジェミニは最高信頼性(κ=0.907$, cosine=95.3%)、続いてGPT-4o(κ=0.853$, cosine=92.6%)、Claude(κ=0.842$, cosine=92.1%)を達成した。
3つのモデル全てが高い合意(κ> 0.80$)を達成し、マルチランアンサンブルのアプローチを検証する。
Geminiは6つのコンセンサステーマ(50~83%の一貫性)、GPT-4oは5つのテーマ、Claude 4は4つのテーマを識別する。
我々のオープンソース実装は、研究者に透過的な信頼性指標、柔軟な構成、構造に依存しないコンセンサス抽出を提供し、信頼性の高いAI支援質的研究のための方法論的基盤を確立する。
関連論文リスト
- Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文 参考訳(メタデータ) (2025-12-03T21:02:54Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
本稿では,複数の大規模言語モデルが複雑なPhDレベルの統計的質問を生成・回答する協調フレームワークを提案する。
本研究は,モデル間のコンセンサスにより応答信頼性が向上し,生成した質問の質が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。