論文の概要: T-FIX: Text-Based Explanations with Features Interpretable to eXperts
- arxiv url: http://arxiv.org/abs/2511.04070v1
- Date: Thu, 06 Nov 2025 05:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.308846
- Title: T-FIX: Text-Based Explanations with Features Interpretable to eXperts
- Title(参考訳): T-FIX:eXpertに解釈可能な特徴を持つテキストベースの説明
- Authors: Shreya Havaldar, Helen Jin, Chaehyeon Kim, Anton Xue, Weiqiu You, Marco Gatti, Bhuvnesh Jain, Helen Qu, Daniel A Hashimoto, Amin Madani, Rajat Deo, Sameed Ahmed M. Khatana, Gary E. Weissman, Lyle Ungar, Eric Wong,
- Abstract要約: 我々は、T-FIXによる説明を評価するための基準として専門家アライメントを定式化する。
ドメインエキスパートと共同で,LLM説明と専門家判断のアライメントを測定するための新しい指標を開発した。
- 参考スコア(独自算出の注目度): 14.147520903572898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As LLMs are deployed in knowledge-intensive settings (e.g., surgery, astronomy, therapy), users expect not just answers, but also meaningful explanations for those answers. In these settings, users are often domain experts (e.g., doctors, astrophysicists, psychologists) who require explanations that reflect expert-level reasoning. However, current evaluation schemes primarily emphasize plausibility or internal faithfulness of the explanation, which fail to capture whether the content of the explanation truly aligns with expert intuition. We formalize expert alignment as a criterion for evaluating explanations with T-FIX, a benchmark spanning seven knowledge-intensive domains. In collaboration with domain experts, we develop novel metrics to measure the alignment of LLM explanations with expert judgment.
- Abstract(参考訳): LLMは知識集約的な環境(例えば、手術、天文学、治療など)に展開されるため、ユーザーは答えだけでなく、その答えに対する意味のある説明も期待する。
これらの設定では、ユーザーはしばしばドメインの専門家(医師、宇宙物理学者、心理学者)であり、専門家レベルの推論を反映した説明を必要とする。
しかし、現在の評価手法は主に説明の妥当性や内部の忠実さを強調しており、説明の内容が専門家の直観と真に一致しているかどうかを把握できない。
我々は,知識集約型ドメインのベンチマークであるT-FIXによる説明評価の基準として,専門家アライメントを定式化した。
ドメインエキスパートと共同で,LLM説明と専門家判断のアライメントを測定するための新しい指標を開発した。
関連論文リスト
- Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - The FIX Benchmark: Extracting Features Interpretable to eXperts [9.688218822056823]
FIX(Features Interpretable to eXperts)は、機能の集合が専門家の知識とどの程度うまく一致しているかを測定するベンチマークである。
ドメインエキスパートと共同でFIXScoreを提案する。
特徴に基づく一般的な説明手法は、専門家が特定した知識と不一致であることがわかった。
論文 参考訳(メタデータ) (2024-09-20T17:53:03Z) - Exploring Commonalities in Explanation Frameworks: A Multi-Domain Survey Analysis [0.0]
本研究は,3つの領域の専門家による調査および議論から得られた知見を提示する。
分析されたアプリケーションには、医療シナリオ(予測MLを含む)、小売ユースケース(規範MLを含む)、エネルギーユースケース(予測MLも含む)が含まれる。
以上の結果から,より説明可能性の高い精度を犠牲にすることが普遍的に望まれることが示唆された。
論文 参考訳(メタデータ) (2024-05-20T11:28:32Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Perspectives on Incorporating Expert Feedback into Model Updates [46.99664744930785]
専門家のフィードバックタイプと実践者の更新とを一致させる分類法を考案する。
実践者は、観察レベルまたはドメインレベルの専門家からフィードバックを受けることができる。
我々は、このフィードバック更新分類について、MLと人間とコンピュータの相互作用による既存の研究を概観する。
論文 参考訳(メタデータ) (2022-05-13T21:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。