論文の概要: AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence
- arxiv url: http://arxiv.org/abs/2404.11826v1
- Date: Thu, 18 Apr 2024 01:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:20:47.871286
- Title: AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence
- Title(参考訳): AdvisorQA: 包括的インテリジェンスによる無害かつ無害なアドバイス検索質問への回答
- Authors: Minbeom Kim, Hwanhee Lee, Joonsuk Park, Hwaran Lee, Kyomin Jung,
- Abstract要約: よりパーソナライズされた関心事に対するアドバイスを提供する上で,LSMの能力を評価するために開発された最初のベンチマークであるAdvancedQAを紹介する。
私たちは、日常生活の質問、多様な応答、そして私たちの役に立つ度合いをトレーニングするための過半数の投票ランキングを含むベンチマークを完了しました。
ベースライン実験は, 有用度測定, GPT-4, 人的評価により, AdvisorQAの有効性を検証した。
- 参考スコア(独自算出の注目度): 28.732847229006264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the integration of large language models into daily life is on the rise, there is a clear gap in benchmarks for advising on subjective and personal dilemmas. To address this, we introduce AdvisorQA, the first benchmark developed to assess LLMs' capability in offering advice for deeply personalized concerns, utilizing the LifeProTips subreddit forum. This forum features a dynamic interaction where users post advice-seeking questions, receiving an average of 8.9 advice per query, with 164.2 upvotes from hundreds of users, embodying a collective intelligence framework. Therefore, we've completed a benchmark encompassing daily life questions, diverse corresponding responses, and majority vote ranking to train our helpfulness metric. Baseline experiments validate the efficacy of AdvisorQA through our helpfulness metric, GPT-4, and human evaluation, analyzing phenomena beyond the trade-off between helpfulness and harmlessness. AdvisorQA marks a significant leap in enhancing QA systems for providing personalized, empathetic advice, showcasing LLMs' improved understanding of human subjectivity.
- Abstract(参考訳): 大規模言語モデルの日常生活への統合が進んでいるため、主観的および個人的ジレンマに助言するベンチマークには明らかなギャップがある。
これを解決するために、LifeProTips subredditフォーラムを利用して、深いパーソナライズされた関心事に対するアドバイスを提供するLLMの機能を評価するために開発された最初のベンチマークであるAdvancedQAを紹介する。
このフォーラムでは、ユーザがアドバイスを求める質問を投稿し、クエリ毎に平均8.9のアドバイスを受け取り、数百人のユーザから164.2のアップボレートを受け取り、集合的なインテリジェンスフレームワークを具現化している。
そこで本研究では,日常生活の質問,多様な回答,助力指標をトレーニングするための過半数の投票ランキングを含むベンチマークを完了した。
ベースライン実験では, 有用度測定, GPT-4, 人体評価を用いて, 有用性と無害性のトレードオフを超えた現象を解析し, アドバイザQAの有効性を検証した。
AdvisorQAは、パーソナライズされた共感的なアドバイスを提供するためのQAシステムを強化し、LLMが人間の主観性に対する理解を改善したことを示している。
関連論文リスト
- Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々の採点法は, 専門家の嗜好と相関する。
生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Leveraging Topic Specificity and Social Relationships for Expert Finding in Community Question Answering Platforms [5.723916517485655]
本稿では,エキスパート検索のためのトピック指向ユーザインタラクションモデルTUEFを提案する。
TUEFは、多層グラフを構築することで、コンテンツとソーシャルデータを統合する。
実験の結果、TUEFはP@1で42.42%、NDCG@3で32.73%、R@5で21.76%、MRRで29.81%という最低パフォーマンスで全てのライバルを上回った。
論文 参考訳(メタデータ) (2024-07-04T15:50:18Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - K-ESConv: Knowledge Injection for Emotional Support Dialogue Systems via
Prompt Learning [83.19215082550163]
K-ESConvは、感情支援対話システムのための、新しい学習に基づく知識注入手法である。
本研究では,情緒的支援データセットESConvを用いて,外部の専門的情緒的Q&Aフォーラムから知識を抽出し,組み込んだモデルを評価した。
論文 参考訳(メタデータ) (2023-12-16T08:10:10Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - FEBR: Expert-Based Recommendation Framework for beneficial and
personalized content [77.86290991564829]
推奨コンテンツの質を評価するための見習い学習フレームワークであるFEBR(Expert-Based Recommendation Framework)を提案する。
このフレームワークは、推奨評価環境において専門家(信頼できると仮定される)の実証された軌跡を利用して、未知のユーティリティ機能を回復する。
ユーザ関心シミュレーション環境(RecSim)によるソリューションの性能評価を行う。
論文 参考訳(メタデータ) (2021-07-17T18:21:31Z) - An Empirical Study of Clarifying Question-Based Systems [15.767515065224016]
実験システムをデプロイしてオンライン実験を行い、プロダクトリポジトリに対して明確な質問をすることでユーザと対話する。
暗黙的なインタラクション行動データと,ユーザからの明示的なフィードバックの両方を収集する。 (a)ユーザは,多くの明確な質問(平均11~21件)に回答する意思がありますが,それ以上は多くありません。
論文 参考訳(メタデータ) (2020-08-01T15:10:11Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。