論文の概要: Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning
- arxiv url: http://arxiv.org/abs/2411.17304v1
- Date: Tue, 26 Nov 2024 10:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:44.915191
- Title: Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning
- Title(参考訳): LLMにおけるバイアス誘発単語のハッシュ化は論理的推論と統計的学習のパフォーマンスを向上させる
- Authors: Milena Chadimová, Eduard Jurášek, Tomáš Kliegr,
- Abstract要約: ハッシュ」は、認知バイアスを減らすために、意味のない識別子で大きな言語モデルでバイアスを誘発する可能性のある単語を隠蔽する。
この方法は、合計490のプロンプトを含む3つの実験セットで試験された。
本手法は,外部知識のバイアス低減と包摂性の向上を図った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a novel method, referred to as "hashing", which involves masking potentially bias-inducing words in large language models (LLMs) with hash-like meaningless identifiers to reduce cognitive biases and reliance on external knowledge. The method was tested across three sets of experiments involving a total of 490 prompts. Statistical analysis using chi-square tests showed significant improvements in all tested scenarios, which covered LLama, ChatGPT, Copilot, Gemini and Mixtral models. In the first experiment, hashing decreased the fallacy rate in a modified version of the "Linda" problem aimed at evaluating susceptibility to cognitive biases. In the second experiment, it improved LLM results on the frequent itemset extraction task. In the third experiment, we found hashing is also effective when the Linda problem is presented in a tabular format rather than text, indicating that the technique works across various input representations. Overall, the method was shown to improve bias reduction and incorporation of external knowledge. Despite bias reduction, hallucination rates were inconsistently reduced across types of LLM models. These findings suggest that masking bias-inducing terms can improve LLM performance, although its effectiveness is model- and task-dependent.
- Abstract(参考訳): 本稿では,大きな言語モデル(LLM)において,認知バイアスの低減と外部知識への依存を抑えるために,ハッシュのような無意味な識別子を用いた潜在的バイアス誘発語をマスキングする「ハッシュ」と呼ばれる新しい手法を提案する。
この方法は、合計490のプロンプトを含む3つの実験セットで試験された。
Chi-squareテストを用いた統計的分析では、LLama、ChatGPT、Copilot、Gemini、Mixtralモデルを含むすべてのテストシナリオが大幅に改善された。
最初の実験では、ハッシングは認知バイアスに対する感受性を評価することを目的とした「リンダ」問題の修正版における誤認率を低下させた。
第2の実験では、頻繁なアイテムセット抽出タスクにおいて、LCMの結果を改善した。
第3の実験では、リンダ問題がテキストではなく表形式で表される場合、ハッシュも有効であることが判明し、この手法が様々な入力表現にまたがって機能することを示唆した。
本手法は,外部知識のバイアス低減と包摂性の向上を図った。
バイアス低減にもかかわらず, 幻覚率はLLMモデルで不整合に減少した。
これらの結果から, マスキングバイアス誘導項は, モデルとタスクに依存しているにもかかわらず, LLM性能を向上させることが示唆された。
関連論文リスト
- Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [14.906150451947443]
大規模言語モデル(LLM)における潜在的なバイアスを軽減するために,評価者を支援するため,多発性ICLプロンプトを2つ検討した。
設計したプロンプトに基づいて,テキスト内サンプルのスケーリングが評価結果の一貫性と品質に与える影響について検討する。
GPT-4oのような高度なLCMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [37.07596663793111]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。