Fugu-MT 論文翻訳(概要): DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues

論文の概要: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues

arxiv url: http://arxiv.org/abs/2310.18130v2
Date: Tue, 7 Nov 2023 20:29:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 18:48:28.828045
Title: DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues
Title（参考訳）: DELPHI: 論争問題への対処におけるLLMの性能評価データ
Authors: David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher Klein, Jason D. Williams
Abstract要約: 論争は私たちの世俗主義の反映であり、あらゆる論点にとって重要な側面である。対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。本稿では,Quora Question Pairsデータセットを拡張した,議論の的となっている質問データセットの新規構築を提案する。
参考スコア（独自算出の注目度）: 3.497021928281132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controversy is a reflection of our zeitgeist, and an important aspect to any discourse. The rise of large language models (LLMs) as conversational systems has increased public reliance on these systems for answers to their various questions. Consequently, it is crucial to systematically examine how these models respond to questions that pertaining to ongoing debates. However, few such datasets exist in providing human-annotated labels reflecting the contemporary discussions. To foster research in this area, we propose a novel construction of a controversial questions dataset, expanding upon the publicly released Quora Question Pairs Dataset. This dataset presents challenges concerning knowledge recency, safety, fairness, and bias. We evaluate different LLMs using a subset of this dataset, illuminating how they handle controversial issues and the stances they adopt. This research ultimately contributes to our understanding of LLMs' interaction with controversial issues, paving the way for improvements in their comprehension and handling of complex societal debates.
Abstract（参考訳）: 論争は我々の世俗主義の反映であり、あらゆる言説にとって重要な側面である。対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。したがって、これらのモデルが進行中の議論に関連する質問に対してどのように反応するかを体系的に検討することが重要である。しかし、現代の議論を反映した人名ラベルの提供にはそのようなデータセットはほとんど存在しない。この分野の研究を促進するために,議論を呼んでいる質問データセットを新たに構築し,一般公開されたQuora Question Pairs Datasetに拡張する。このデータセットは、知識の正確性、安全性、公平性、バイアスに関する課題を示す。我々は、このデータセットのサブセットを使用して異なるLCMを評価し、議論を呼んでいる問題と彼らが採用する姿勢をどのように扱うかを明らかにした。この研究は最終的に、LLMと議論の的となる問題との相互作用の理解に寄与し、それらの理解の改善と複雑な社会的議論への対処の道を開いた。

関連論文リスト

ELLIS Alicante at CQs-Gen 2025: Winning the critical thinking questions shared task: LLM-based question generation and selection [7.152439554068969]
この研究は、ACL 2025と共同で行った第12回Argument Miningワークショップの共有タスクの一部である。本稿では,2つの小規模オープンソース言語モデルを含む2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-17T10:10:51Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
Argumentative Experience: Reducing Confirmation Bias on Controversial Issues through LLM-Generated Multi-Persona Debates [7.4355162723392585]
大きな言語モデル(LLM)は、デザイナーが情報アクセスのためのエキサイティングな新しいユーザーエクスペリエンスに命を吹き込むことを可能にする。本研究は, 異論を呈する諸問題に対して, 混合方法論, 対象内研究を通じて複数の視点を呈する。ベースライン検索システムと比較すると、より創造的な相互作用と多様な情報検索が、我々の多人数討論システムと比較される。
論文参考訳（メタデータ） (2024-12-05T21:51:05Z)
Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文参考訳（メタデータ） (2024-11-21T16:09:05Z)
NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。 LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文参考訳（メタデータ） (2024-11-21T01:37:38Z)
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation [34.650355693901034]
本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
論文参考訳（メタデータ） (2024-10-02T01:59:07Z)
Federated Large Language Models: Current Progress and Future Directions [63.68614548512534]
本稿では,LLM(FedLLM)のフェデレーション学習について調査し,最近の進歩と今後の方向性を明らかにする。ファインチューニングと迅速な学習という2つの重要な側面に注目し、既存の作業と関連する研究課題について議論する。
論文参考訳（メタデータ） (2024-09-24T04:14:33Z)
DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。 DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文参考訳（メタデータ） (2024-08-02T17:54:34Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文参考訳（メタデータ） (2024-02-22T04:14:10Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements [30.970994382186944]
我々は,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を向上させる。我々は,LLMを微調整する新しい議論・チューニングパイプラインを開発し,議論を通じて得られた文を生成する。
論文参考訳（メタデータ） (2024-02-16T12:00:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。