論文の概要: What Evidence Do Language Models Find Convincing?
- arxiv url: http://arxiv.org/abs/2402.11782v2
- Date: Fri, 9 Aug 2024 02:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:30:23.696813
- Title: What Evidence Do Language Models Find Convincing?
- Title(参考訳): 言語モデルに影響を及ぼす証拠は何か?
- Authors: Alexander Wan, Eric Wallace, Dan Klein,
- Abstract要約: 議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
- 参考スコア(独自算出の注目度): 94.90663008214918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented language models are being increasingly tasked with subjective, contentious, and conflicting queries such as "is aspartame linked to cancer". To resolve these ambiguous queries, one must search through a large range of websites and consider "which, if any, of this evidence do I find convincing?". In this work, we study how LLMs answer this question. In particular, we construct ConflictingQA, a dataset that pairs controversial queries with a series of real-world evidence documents that contain different facts (e.g., quantitative results), argument styles (e.g., appeals to authority), and answers (Yes or No). We use this dataset to perform sensitivity and counterfactual analyses to explore which text features most affect LLM predictions. Overall, we find that current models rely heavily on the relevance of a website to the query, while largely ignoring stylistic features that humans find important such as whether a text contains scientific references or is written with a neutral tone. Taken together, these results highlight the importance of RAG corpus quality (e.g., the need to filter misinformation), and possibly even a shift in how LLMs are trained to better align with human judgements.
- Abstract(参考訳): 検索言語モデルは「アスパルタムは癌と結びついている」といった主観的、論争的、矛盾するクエリにますます取り組まれている。
これらの曖昧なクエリを解決するには、広範囲のWebサイトを検索し、“この証拠のどれが説得力があるか”を考える必要がある。
本研究では, LLM がこの疑問にどう答えるかを考察する。
特に、議論を呼んでいるクエリと、さまざまな事実(例えば、定量的な結果)、議論スタイル(例えば、権威へのアピール)、回答(Yes or No)を含む一連の実世界の証拠文書とを照合するデータセットであるConflictingQAを構築する。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存しているが、テキストに科学的参照が含まれているか、中立的なトーンで書かれているかといった、人間が重要と考えるスタイル的特徴を無視している。
これらの結果は、RAGコーパスの品質(例えば、誤報をフィルタリングする必要性)の重要性や、LLMが人間の判断によく適合するように訓練される方法の変化を浮き彫りにしている。
関連論文リスト
- BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation [34.650355693901034]
本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。
以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Investigating Annotator Bias in Large Language Models for Hate Speech Detection [5.589665886212444]
本稿では,ヘイトスピーチデータに注釈をつける際に,Large Language Models (LLMs) に存在するバイアスについて考察する。
具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。
我々は,この研究を行うために,独自のヘイトスピーチ検出データセットであるHateBiasNetを紹介した。
論文 参考訳(メタデータ) (2024-06-17T00:18:31Z) - Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models [10.666290735480821]
本稿ではドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介する。
実験の結果、LLMはフィルタを通過できないことが判明した。
更新されたモデルは、cantクエリの受け入れ率が高い。
論文 参考訳(メタデータ) (2024-04-25T17:25:53Z) - Customizing Language Model Responses with Contrastive In-Context Learning [7.342346948935483]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。