論文の概要: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial
Issues
- arxiv url: http://arxiv.org/abs/2310.18130v2
- Date: Tue, 7 Nov 2023 20:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:48:28.828045
- Title: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial
Issues
- Title(参考訳): DELPHI: 論争問題への対処におけるLLMの性能評価データ
- Authors: David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher
Klein, Jason D. Williams
- Abstract要約: 論争は私たちの世俗主義の反映であり、あらゆる論点にとって重要な側面である。
対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。
本稿では,Quora Question Pairsデータセットを拡張した,議論の的となっている質問データセットの新規構築を提案する。
- 参考スコア(独自算出の注目度): 3.497021928281132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controversy is a reflection of our zeitgeist, and an important aspect to any
discourse. The rise of large language models (LLMs) as conversational systems
has increased public reliance on these systems for answers to their various
questions. Consequently, it is crucial to systematically examine how these
models respond to questions that pertaining to ongoing debates. However, few
such datasets exist in providing human-annotated labels reflecting the
contemporary discussions. To foster research in this area, we propose a novel
construction of a controversial questions dataset, expanding upon the publicly
released Quora Question Pairs Dataset. This dataset presents challenges
concerning knowledge recency, safety, fairness, and bias. We evaluate different
LLMs using a subset of this dataset, illuminating how they handle controversial
issues and the stances they adopt. This research ultimately contributes to our
understanding of LLMs' interaction with controversial issues, paving the way
for improvements in their comprehension and handling of complex societal
debates.
- Abstract(参考訳): 論争は我々の世俗主義の反映であり、あらゆる言説にとって重要な側面である。
対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。
したがって、これらのモデルが進行中の議論に関連する質問に対してどのように反応するかを体系的に検討することが重要である。
しかし、現代の議論を反映した人名ラベルの提供にはそのようなデータセットはほとんど存在しない。
この分野の研究を促進するために,議論を呼んでいる質問データセットを新たに構築し,一般公開されたQuora Question Pairs Datasetに拡張する。
このデータセットは、知識の正確性、安全性、公平性、バイアスに関する課題を示す。
我々は、このデータセットのサブセットを使用して異なるLCMを評価し、議論を呼んでいる問題と彼らが採用する姿勢をどのように扱うかを明らかにした。
この研究は最終的に、LLMと議論の的となる問題との相互作用の理解に寄与し、それらの理解の改善と複雑な社会的議論への対処の道を開いた。
関連論文リスト
- PAQA: Toward ProActive Open-Retrieval Question Answering [34.883834970415734]
本研究の目的は、ユーザクエリとドキュメントの両方に存在する固有の曖昧さを考慮し、関連性のある明確な質問を生成するという課題に取り組むことである。
本稿では,既存のAmbiNQデータセットの拡張であるPAQAを提案する。
次に,様々なモデルの評価を行い,経路探索があいまいさの検出と明瞭な質問の生成にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-02-26T14:40:34Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate
Controllable Controversial Statements [33.83358642147298]
我々は,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を向上させる。
我々は,LLMを微調整する新しい議論とチューニング(DEBATunE)を開発し,議論を通じて得られた文を生成する。
論文 参考訳(メタデータ) (2024-02-16T12:00:34Z) - Generative Echo Chamber? Effects of LLM-Powered Search Systems on
Diverse Information Seeking [49.02867094432589]
大規模言語モデル(LLM)を利用した対話型検索システムは、すでに数億人の人々が利用している。
評価バイアスのあるLCMが, ユーザの視点を補強したり, 異議を申し立てたりすることで, 効果が変化するか, どのように変化するかを検討する。
論文 参考訳(メタデータ) (2024-02-08T18:14:33Z) - Factuality of Large Language Models in the Year 2024 [31.039783688574897]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Challenges and Contributing Factors in the Utilization of Large Language
Models (LLMs) [10.039589841455136]
本稿では,大規模言語モデル (LLM) がニッチ分野における専門的な質問に対して正確な回答を提供するのに苦慮する領域特異性の問題について考察する。
トレーニングデータを多様化し、きめ細かいモデルを作成し、透明性と解釈可能性を高め、倫理と公正なトレーニングを取り入れることが推奨されている。
論文 参考訳(メタデータ) (2023-10-20T08:13:36Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。