論文の概要: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial
Issues
- arxiv url: http://arxiv.org/abs/2310.18130v1
- Date: Fri, 27 Oct 2023 13:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:45:29.051776
- Title: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial
Issues
- Title(参考訳): DELPHI: 論争問題への対処におけるLLMの性能評価データ
- Authors: David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher
Klein, Jason D. Williams
- Abstract要約: 論争は私たちの世俗主義の反映であり、あらゆる論点にとって重要な側面である。
対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。
本稿では,Quora Question Pairsデータセットを拡張した,議論の的となっている質問データセットの新規構築を提案する。
- 参考スコア(独自算出の注目度): 3.497021928281132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controversy is a reflection of our zeitgeist, and an important aspect to any
discourse. The rise of large language models (LLMs) as conversational systems
has increased public reliance on these systems for answers to their various
questions. Consequently, it is crucial to systematically examine how these
models respond to questions that pertaining to ongoing debates. However, few
such datasets exist in providing human-annotated labels reflecting the
contemporary discussions. To foster research in this area, we propose a novel
construction of a controversial questions dataset, expanding upon the publicly
released Quora Question Pairs Dataset. This dataset presents challenges
concerning knowledge recency, safety, fairness, and bias. We evaluate different
LLMs using a subset of this dataset, illuminating how they handle controversial
issues and the stances they adopt. This research ultimately contributes to our
understanding of LLMs' interaction with controversial issues, paving the way
for improvements in their comprehension and handling of complex societal
debates.
- Abstract(参考訳): 論争は我々の世俗主義の反映であり、あらゆる言説にとって重要な側面である。
対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。
したがって、これらのモデルが進行中の議論に関連する質問に対してどのように反応するかを体系的に検討することが重要である。
しかし、現代の議論を反映した人名ラベルの提供にはそのようなデータセットはほとんど存在しない。
この分野の研究を促進するために,議論を呼んでいる質問データセットを新たに構築し,一般公開されたQuora Question Pairs Datasetに拡張する。
このデータセットは、知識の正確性、安全性、公平性、バイアスに関する課題を示す。
我々は、このデータセットのサブセットを使用して異なるLCMを評価し、議論を呼んでいる問題と彼らが採用する姿勢をどのように扱うかを明らかにした。
この研究は最終的に、LLMと議論の的となる問題との相互作用の理解に寄与し、それらの理解の改善と複雑な社会的議論への対処の道を開いた。
関連論文リスト
- Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation [34.650355693901034]
本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。
以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Federated Large Language Models: Current Progress and Future Directions [63.68614548512534]
本稿では,LLM(FedLLM)のフェデレーション学習について調査し,最近の進歩と今後の方向性を明らかにする。
ファインチューニングと迅速な学習という2つの重要な側面に注目し、既存の作業と関連する研究課題について議論する。
論文 参考訳(メタデータ) (2024-09-24T04:14:33Z) - DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。
私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。
DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文 参考訳(メタデータ) (2024-08-02T17:54:34Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements [30.970994382186944]
我々は,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を向上させる。
我々は,LLMを微調整する新しい議論・チューニングパイプラインを開発し,議論を通じて得られた文を生成する。
論文 参考訳(メタデータ) (2024-02-16T12:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。