論文の概要: What Evidence Do Language Models Find Convincing?
- arxiv url: http://arxiv.org/abs/2402.11782v1
- Date: Mon, 19 Feb 2024 02:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:56:24.221928
- Title: What Evidence Do Language Models Find Convincing?
- Title(参考訳): 言語モデルが説得力を持つ証拠は何か?
- Authors: Alexander Wan, Eric Wallace, Dan Klein
- Abstract要約: 議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
- 参考スコア(独自算出の注目度): 103.67867531892988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented language models are being increasingly tasked with
subjective, contentious, and conflicting queries such as "is aspartame linked
to cancer". To resolve these ambiguous queries, one must search through a large
range of websites and consider "which, if any, of this evidence do I find
convincing?". In this work, we study how LLMs answer this question. In
particular, we construct ConflictingQA, a dataset that pairs controversial
queries with a series of real-world evidence documents that contain different
facts (e.g., quantitative results), argument styles (e.g., appeals to
authority), and answers (Yes or No). We use this dataset to perform sensitivity
and counterfactual analyses to explore which text features most affect LLM
predictions. Overall, we find that current models rely heavily on the relevance
of a website to the query, while largely ignoring stylistic features that
humans find important such as whether a text contains scientific references or
is written with a neutral tone. Taken together, these results highlight the
importance of RAG corpus quality (e.g., the need to filter misinformation), and
possibly even a shift in how LLMs are trained to better align with human
judgements.
- Abstract(参考訳): 検索型言語モデルでは,主観的,議論的,矛盾するクエリ("is aspartame linked to cancer" など)のタスクがますます多くなっています。
これらの曖昧なクエリを解決するには、広範囲のWebサイトを検索し、“この証拠のどれが説得力があるか”を考える必要がある。
本研究では, LLM がこの疑問にどう答えるかを検討する。
具体的には、異なる事実(例えば、定量的な結果)、議論のスタイル(例えば、権威への訴え)、回答(yes or no)を含む一連の実世界の証拠文書と、議論の分かれるクエリを組み合わせるデータセット conflictingqa を構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、webサイトとクエリとの関連性に大きく依存しているが、テキストが科学的な参照を含むか、中立的なトーンで書かれているかといった、人間が重要視するスタイル的特徴は無視している。
これらの結果は、RAGコーパスの品質の重要性(例えば、誤報をフィルタリングする必要性)と、LLMが人間の判断によく適合するように訓練される方法の変化を浮き彫りにした。
関連論文リスト
- Harnessing Artificial Intelligence to Combat Online Hate: Exploring the
Challenges and Opportunities of Large Language Models in Hate Speech
Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-03-12T19:12:28Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Customizing Language Model Responses with Contrastive In-Context
Learning [8.674010267754051]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia [68.00056517461402]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial
Issues [3.497021928281132]
論争は私たちの世俗主義の反映であり、あらゆる論点にとって重要な側面である。
対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。
本稿では,Quora Question Pairsデータセットを拡張した,議論の的となっている質問データセットの新規構築を提案する。
論文 参考訳(メタデータ) (2023-10-27T13:23:02Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。