論文の概要: Are Today's LLMs Ready to Explain Well-Being Concepts?
- arxiv url: http://arxiv.org/abs/2508.03990v1
- Date: Wed, 06 Aug 2025 00:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.483397
- Title: Are Today's LLMs Ready to Explain Well-Being Concepts?
- Title(参考訳): 今日のLLMは、幸福な概念を説明する準備ができているか?
- Authors: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu,
- Abstract要約: 我々は,2,194の幸福な概念の43,880の説明を含む大規模データセットを構築した。
本稿では,原則誘導型LCM-as-a-judge評価フレームワークを導入する。
我々は,SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を用いたオープンソースLLMの微調整により,生成した説明の質を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 17.02052397388858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.
- Abstract(参考訳): 幸福は、個人の成長と生命決定に不可欠な精神的、身体的、社会的次元を含んでいる。
個人が幸福を理解するためにLarge Language Models (LLMs) をますます相談するにつれて、大きな課題が浮かび上がってくる。
高品質な説明は、事実の正しさと、様々な専門知識を持つユーザの期待を満たす能力の両方を必要とする。
本研究では,10種類のLCMによって生成される2,194個のウェルビーイング概念について43,880個の説明を含む大規模データセットを構築した。
本稿では,原則誘導型LCM-as-a-judge評価フレームワークを導入する。
さらに、SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を用いたオープンソースのLCMの微調整により、生成した説明の質が大幅に向上することを示した。
提案したLCM審査員は, モデル, オーディエンス, カテゴリーによって説明品質が著しく異なること, (3) DPO-, SFT-finetuned モデルは, 特定の説明課題に対する嗜好に基づく学習の有効性を実証した。
関連論文リスト
- Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Improve LLM-as-a-Judge Ability as a General Ability [40.2210529561692]
大規模言語モデル(LLM)は様々なシナリオで応答を評価し、正確な選好信号を提供する。
近年の研究では、LLMをジェネレーティブ・ジャッジ(ジェネレーティブ・ジャッジ)として訓練する多くの方法が提起されているが、そのほとんどはデータ消費か精度の欠如である。
本研究では、教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)強化を含む2段階の訓練手法を実装した。
論文 参考訳(メタデータ) (2025-02-17T11:28:43Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。