Fugu-MT 論文翻訳(概要): Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

論文の概要: Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

arxiv url: http://arxiv.org/abs/2605.22971v1
Date: Thu, 21 May 2026 19:01:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.065595
Title: Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs
Title（参考訳）: AIは何を知っているのか? コミュニケーションログから人間ドメインの知識を推定するための大規模言語モデルの性能比較
Authors: Ko Watanabe, Shoya Ishimaru,
Abstract要約: 大きな言語モデル(LLM)は、長期Slackログから直接個々のドメイン知識を推測することができる。 Gemini 2.5 Flashは最小エラー(MAE 21.13%)を達成し、GPTモデルははるかに大きな差を示した。
参考スコア（独自算出の注目度）: 2.74604027592585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Employees often struggle to identify ``who knows what,'' leading to organizational productivity losses. We investigate whether Large Language Models (LLMs) can infer individual domain knowledge directly from long-term Slack logs. Analyzing 27,188 messages from 43 users, we evaluated seven models (including Gemini, Claude, and GPT families) by comparing their zero-shot estimates against self-reported skill ratings from 27 participants. Gemini 2.5 Flash achieved the lowest error (MAE 21.13%), while GPT models showed significantly larger discrepancies. Notably, estimation accuracy depended only weakly on message volume, indicating that more text alone does not guarantee better inference. These findings demonstrate the feasibility and current limits of automated expertise mapping, highlighting the need for privacy-preserving deployments and richer, structure-aware representations of human knowledge.
Abstract（参考訳）: 従業員はしばしば、組織的生産性の損失につながる‘誰が何を知っているか’を特定するのに苦労します。本研究では,長期Slackログから直接個々のドメイン知識を推測できる言語モデル(LLM)について検討する。 43名のユーザから27,188件のメッセージを分析し,27名の参加者の自己申告スキル評価とゼロショット推定を比較し,7つのモデル(ジェミニ,クロード,GPTファミリーなど)を評価した。 Gemini 2.5 Flashは最小エラー(MAE 21.13%)を達成し、GPTモデルははるかに大きな差を示した。特に、推定精度はメッセージボリュームにのみ依存しており、より多くのテキストだけではより良い推測が保証されないことを示している。これらの知見は、自動化された専門知識マッピングの実現可能性と現在の限界を示し、プライバシ保護によるデプロイメントの必要性と、よりリッチで構造を意識した人間の知識表現を強調している。

関連論文リスト

Do Benchmarks Underestimate LLM Performance? Evaluating Hallucination Detection With LLM-First Human-Adjudicated Assessment [0.0]
本研究は,要約作業における文脈幻覚検出に焦点を当てた。 QAGS-C と SummEval のデータセットは,従来のベンチマークアノテーションと理性およびスパンベースの予測を比較して分析する。
論文参考訳（メタデータ） (2026-05-08T20:27:44Z)
Scaling Truth: The Confidence Paradox in AI Fact-Checking [0.8201655885319955]
大規模言語モデル(LLM)は事実検証の自動化を約束するが、グローバルな文脈での有効性は不確実である。我々はこれまでに47言語174のファクトチェック組織で評価された5000のクレームを用いて,複数のカテゴリにまたがる9つの確立されたLCMを体系的に評価した。より小さいモデルでは精度が低いにもかかわらず高い信頼性を示す一方、より大きなモデルは高い精度を示すが、信頼性は低い。
論文参考訳（メタデータ） (2025-09-10T17:36:25Z)
Evaluating Large Language Models as Expert Annotators [17.06186816803593]
本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文参考訳（メタデータ） (2025-08-11T10:19:10Z)
A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文参考訳（メタデータ） (2025-05-13T22:18:51Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。 AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Prompting or Fine-tuning? Exploring Large Language Models for Causal Graph Validation [0.0]
本研究では,因果グラフの因果性を評価するための大規模言語モデルの有用性について検討する。本研究では,(1)ゼロショットと少数ショットの因果推論のためのプロンプトベース手法,(2)因果関係予測タスクのための微調整言語モデルの比較を行った。
論文参考訳（メタデータ） (2024-05-29T09:06:18Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文参考訳（メタデータ） (2023-10-27T06:48:48Z)
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。 LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文参考訳（メタデータ） (2023-05-23T17:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。