Fugu-MT 論文翻訳(概要): What Evidence Do Language Models Find Convincing?

論文の概要: What Evidence Do Language Models Find Convincing?

arxiv url: http://arxiv.org/abs/2402.11782v1
Date: Mon, 19 Feb 2024 02:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:56:24.221928
Title: What Evidence Do Language Models Find Convincing?
Title（参考訳）: 言語モデルが説得力を持つ証拠は何か?
Authors: Alexander Wan, Eric Wallace, Dan Klein
Abstract要約: 議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
参考スコア（独自算出の注目度）: 103.67867531892988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented language models are being increasingly tasked with subjective, contentious, and conflicting queries such as "is aspartame linked to cancer". To resolve these ambiguous queries, one must search through a large range of websites and consider "which, if any, of this evidence do I find convincing?". In this work, we study how LLMs answer this question. In particular, we construct ConflictingQA, a dataset that pairs controversial queries with a series of real-world evidence documents that contain different facts (e.g., quantitative results), argument styles (e.g., appeals to authority), and answers (Yes or No). We use this dataset to perform sensitivity and counterfactual analyses to explore which text features most affect LLM predictions. Overall, we find that current models rely heavily on the relevance of a website to the query, while largely ignoring stylistic features that humans find important such as whether a text contains scientific references or is written with a neutral tone. Taken together, these results highlight the importance of RAG corpus quality (e.g., the need to filter misinformation), and possibly even a shift in how LLMs are trained to better align with human judgements.
Abstract（参考訳）: 検索型言語モデルでは,主観的,議論的,矛盾するクエリ("is aspartame linked to cancer" など)のタスクがますます多くなっています。これらの曖昧なクエリを解決するには、広範囲のWebサイトを検索し、“この証拠のどれが説得力があるか”を考える必要がある。本研究では, LLM がこの疑問にどう答えるかを検討する。具体的には、異なる事実(例えば、定量的な結果)、議論のスタイル(例えば、権威への訴え)、回答(yes or no)を含む一連の実世界の証拠文書と、議論の分かれるクエリを組み合わせるデータセット conflictingqa を構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、webサイトとクエリとの関連性に大きく依存しているが、テキストが科学的な参照を含むか、中立的なトーンで書かれているかといった、人間が重要視するスタイル的特徴は無視している。これらの結果は、RAGコーパスの品質の重要性(例えば、誤報をフィルタリングする必要性)と、LLMが人間の判断によく適合するように訓練される方法の変化を浮き彫りにした。

関連論文リスト

TrackList: Tracing Back Query Linguistic Diversity for Head and Tail Knowledge in Open Large Language Models [1.634029945636262]
大規模言語モデル(LLM)は、ユーザ入力クエリに定義型回答を与えるのに効果的であることが証明されている。より詳細な言語および統計的分析パイプラインであるTrackListを用いて,この性能低下を評価した。概念(頭部)の高頻度と低周波(尾)が言語モデルの性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-11-26T03:14:09Z)
Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts [29.95198868148809]
本稿では,プロのファクトチェッカーがアウトレット全体の事実と政治的偏見を評価するために使用する基準をエミュレートする新しい手法を提案する。メディアの人気と地域がモデル性能に与える影響を詳細に分析する。
論文参考訳（メタデータ） (2025-06-14T15:49:20Z)
Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2025-06-05T17:59:26Z)
Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0]
本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文参考訳（メタデータ） (2025-03-11T13:06:40Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation [34.650355693901034]
本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
論文参考訳（メタデータ） (2024-10-02T01:59:07Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
Investigating Annotator Bias in Large Language Models for Hate Speech Detection [5.589665886212444]
本稿では,ヘイトスピーチデータに注釈をつける際に,Large Language Models (LLMs) に存在するバイアスについて考察する。具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。我々は,この研究を行うために,独自のヘイトスピーチ検出データセットであるHateBiasNetを紹介した。
論文参考訳（メタデータ） (2024-06-17T00:18:31Z)
Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models [10.666290735480821]
本稿ではドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介する。実験の結果、LLMはフィルタを通過できないことが判明した。更新されたモデルは、cantクエリの受け入れ率が高い。
論文参考訳（メタデータ） (2024-04-25T17:25:53Z)
Customizing Language Model Responses with Contrastive In-Context Learning [7.342346948935483]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文参考訳（メタデータ） (2024-01-30T19:13:12Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。