論文の概要: Key Considerations for Domain Expert Involvement in LLM Design and Evaluation: An Ethnographic Study
- arxiv url: http://arxiv.org/abs/2602.14357v1
- Date: Mon, 16 Feb 2026 00:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.970412
- Title: Key Considerations for Domain Expert Involvement in LLM Design and Evaluation: An Ethnographic Study
- Title(参考訳): LLM設計と評価におけるドメインエキスパートの役割に関する考察--エスノグラフィーによる検討
- Authors: Annalisa Szymanski, Oghenemaro Anuyah, Toby Jia-Jun Li, Ronald A. Metoyer,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なプロのドメインでの使用のためにますます開発されている。
本稿では,LLM開発における課題とトレードオフについて,12週間のエスノグラフィー研究を通じて検討する。
- 参考スコア(独自算出の注目度): 28.306813921648224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly developed for use in complex professional domains, yet little is known about how teams design and evaluate these systems in practice. This paper examines the challenges and trade-offs in LLM development through a 12-week ethnographic study of a team building a pedagogical chatbot. The researcher observed design and evaluation activities and conducted interviews with both developers and domain experts. Analysis revealed four key practices: creating workarounds for data collection, turning to augmentation when expert input was limited, co-developing evaluation criteria with experts, and adopting hybrid expert-developer-LLM evaluation strategies. These practices show how teams made strategic decisions under constraints and demonstrate the central role of domain expertise in shaping the system. Challenges included expert motivation and trust, difficulties structuring participatory design, and questions around ownership and integration of expert knowledge. We propose design opportunities for future LLM development workflows that emphasize AI literacy, transparent consent, and frameworks recognizing evolving expert roles.
- Abstract(参考訳): 大きな言語モデル(LLM)は、複雑なプロフェッショナルドメインでの使用のためにますます開発されているが、チームが実際にこれらのシステムを設計し評価する方法についてはほとんど知られていない。
本稿では,LLM開発における課題とトレードオフを,教育チャットボットの開発チームによる12週間のエスノグラフィー研究を通じて検討する。
研究者は設計と評価の活動を観察し、開発者とドメインの専門家の両方にインタビューを行った。
分析では、データ収集のための回避策の作成、専門家入力が制限されたときの強化、専門家と共同で評価基準の開発、ハイブリッド専門家-開発者-LLM評価戦略の採用の4つの重要なプラクティスを明らかにした。
これらのプラクティスは、チームが制約の下で戦略的決定をした方法を示し、システムを形作る際にドメインの専門知識が果たす中心的な役割を示しています。
課題には、専門家のモチベーションと信頼、参加型設計の構造化の難しさ、専門家の知識の所有と統合に関する質問が含まれる。
我々は、AIリテラシー、透過的な同意、そして進化する専門家の役割を認識するフレームワークを強調する将来のLLM開発ワークフローの設計機会を提案する。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Evaluating Machine Expertise: How Graduate Students Develop Frameworks for Assessing GenAI Content [1.967444231154626]
本稿では,大学院生が大規模言語モデル(LLM)を用いたWebベースインタラクションにおいて,機械生成の専門知識を評価するためのフレームワークを開発する方法について検討する。
その結果, 学生は, 職業的アイデンティティ, 検証能力, システムナビゲーション経験の3つの要因により, 評価フレームワークを構築していることがわかった。
論文 参考訳(メタデータ) (2025-04-24T22:24:14Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - What Makes An Expert? Reviewing How ML Researchers Define "Expert" [4.6346970187885885]
専門」と「専門」を明示的に参照する学術出版物112件をレビューする。
専門知識はしばしば未定義であり、正式な教育以外の知識の形式はめったに求められない。
我々は、専門家が機械学習開発に関わった方法、専門知識の社会的構築、そして責任あるAI開発への意味について論じる。
論文 参考訳(メタデータ) (2024-10-31T19:51:28Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - PersonaFlow: Designing LLM-Simulated Expert Perspectives for Enhanced Research Ideation [12.593617990325528]
PersonaFlowは、LLMを使用してドメイン固有のエキスパートをシミュレートすることで、複数の視点を提供するように設計されたシステムである。
ユーザ調査の結果、新しいデザインは、考えられた研究方向性の認識と創造性を高めた。
専門家のプロフィールをカスタマイズするユーザの能力は、エージェンシーの感覚を大幅に改善し、AIへの過度な依存を軽減する可能性がある。
論文 参考訳(メタデータ) (2024-09-19T07:54:29Z) - (Re)Defining Expertise in Machine Learning Development [3.096615629099617]
我々は,1)専門知識が定義され,認識される基盤,2)専門家がML開発で果たす役割を理解するために,機械学習研究の体系的な文献レビューを行う。
私たちのゴールは、専門家の識別とML研究への関与の限界と機会を強調するために、高いレベルの分類を作ることです。
論文 参考訳(メタデータ) (2023-02-08T21:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。