論文の概要: Do LLMs Find Human Answers To Fact-Driven Questions Perplexing? A Case Study on Reddit
- arxiv url: http://arxiv.org/abs/2404.01147v1
- Date: Mon, 1 Apr 2024 14:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:15:37.708336
- Title: Do LLMs Find Human Answers To Fact-Driven Questions Perplexing? A Case Study on Reddit
- Title(参考訳): LLMはFact-Driven Questionsに人間の答えを見つけるか? Redditでのケーススタディ
- Authors: Parker Seegmiller, Joseph Gatto, Omar Sharif, Madhusudan Basak, Sarah Masud Preum,
- Abstract要約: 我々は15のr/AskTopicコミュニティから409のファクトドリブンな質問と7,534の多様性と評価された回答のデータセットを収集し、リリースする。
LLMは、評価の低い人間の答えとは対照的に、そのような質問に対する高い評価の人間の回答をモデル化するのがかなり優れている。
- 参考スコア(独自算出の注目度): 2.6968323853251928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to be proficient in correctly answering questions in the context of online discourse. However, the study of using LLMs to model human-like answers to fact-driven social media questions is still under-explored. In this work, we investigate how LLMs model the wide variety of human answers to fact-driven questions posed on several topic-specific Reddit communities, or subreddits. We collect and release a dataset of 409 fact-driven questions and 7,534 diverse, human-rated answers from 15 r/Ask{Topic} communities across 3 categories: profession, social identity, and geographic location. We find that LLMs are considerably better at modeling highly-rated human answers to such questions, as opposed to poorly-rated human answers. We present several directions for future research based on our initial findings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オンライン談話の文脈における質問に正しく答えることに熟練していることが示されている。
しかし, 事実駆動型ソーシャルメディア質問に対する人間的回答のモデル化にLLMを用いた研究は, いまだに未検討である。
本研究では,複数のトピック固有のRedditコミュニティ,あるいはサブレディットで提起された事実駆動質問に対して,LLMが多種多様な人間の回答をどのようにモデル化するかを検討する。
専門職、社会的アイデンティティ、地理的位置の3つのカテゴリにまたがる15のr/Ask{Topic}コミュニティから、409の事実駆動の質問と7,534の多様性と人間による回答のデータセットを収集し、リリースします。
LLMは、評価の低い人間の答えとは対照的に、そのような質問に対する高い評価の人間の回答をモデル化するのがかなり優れている。
今後の研究の方向性について,本研究の最初の成果をもとに概説する。
関連論文リスト
- Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Gotcha! Don't trick me with unanswerable questions! Self-aligning Large
Language Models for Responding to Unknown Questions [75.78536317322616]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Factuality of Large Language Models in the Year 2024 [31.039783688574897]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Understanding Causality with Large Language Models: Feasibility and
Opportunities [23.68197884888299]
我々は,大言語モデル(LLM)の強みと弱みを分析し,因果的疑問に答える能力を評価する。
我々は,明示的かつ暗黙的な因果的加群の実現など,今後の方向性や可能性について議論する。
論文 参考訳(メタデータ) (2023-04-11T22:30:03Z) - What Types of Questions Require Conversation to Answer? A Case Study of
AskReddit Questions [16.75969771718778]
本研究の目的は,会話を通じて最もよく答えられる無謀でオープンな質問の種類を調べることで,会話システムの境界を推し進めることである。
我々は、AskRedditに投稿された100万件のオープンエンドリクエストから500件の質問をサンプリングし、オンラインの群衆労働者を雇い、これらの質問について8つの質問に答えた。
私たちは、人々が十分に解決するために会話を必要とすると信じている問題は、非常に社会的かつ個人的なものであることに気付きました。
論文 参考訳(メタデータ) (2023-03-30T21:05:22Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - How Do We Answer Complex Questions: Discourse Structure of Long-form
Answers [51.973363804064704]
3つのデータセットから収集した長文回答の機能構造について検討した。
私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。
我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文 参考訳(メタデータ) (2022-03-21T15:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。