論文の概要: Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis
- arxiv url: http://arxiv.org/abs/2311.00258v1
- Date: Wed, 1 Nov 2023 03:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:10:53.192786
- Title: Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis
- Title(参考訳): 大規模言語モデルのロバスト化:ドメインに依存しない振る舞い分析
- Authors: Hongyi Zheng, Abulhair Saparov
- Abstract要約: ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。
モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。
また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
- 参考スコア(独自算出の注目度): 10.06218778776515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in prompt engineering enable large language models (LLMs) to
solve multi-hop logical reasoning problems with impressive accuracy. However,
there is little existing work investigating the robustness of LLMs with
few-shot prompting techniques. Therefore, we introduce a systematic approach to
test the robustness of LLMs in multi-hop reasoning tasks via domain-agnostic
perturbations. We include perturbations at multiple levels of abstractions
(e.g. lexical perturbations such as typos, and semantic perturbations such as
the inclusion of intermediate reasoning steps in the questions) to conduct
behavioral analysis on the LLMs. Throughout our experiments, we find that
models are more sensitive to certain perturbations such as replacing words with
their synonyms. We also demonstrate that increasing the proportion of perturbed
exemplars in the prompts improves the robustness of few-shot prompting methods.
- Abstract(参考訳): 近年のプロンプトエンジニアリングの進歩により、大規模言語モデル (LLM) は、印象的な精度でマルチホップ論理推論問題を解くことができる。
しかし,LLMのロバスト性について,数発のプロンプト技術を用いて検討する研究はほとんどない。
そこで本研究では,マルチホップ推論タスクにおけるllmのロバスト性をテストするための体系的手法を提案する。
我々は、llm上で行動分析を行うために、複数の抽象レベルの摂動(例えば、タイプポスのような語彙摂動や、質問に中間的推論ステップを含むような意味摂動)を含む。
実験を通して、モデルが単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることが判明した。
また,プロンプトにおける摂動例の割合の増加は,数発プロンプト法の堅牢性を向上させることを示す。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Resilience of Large Language Models for Noisy Instructions [38.25524275497566]
大規模言語モデル(LLM)は、ヒューマンコマンドを解釈し、様々なタスク間でテキストを生成する強力なツールとして登場した。
本研究では, ASR(Automatic Speech Recognition)エラー, OCR(Optical Character Recognition)エラー, 文法的誤り, 気まぐれな内容を含む5種類の障害に対するLLMのレジリエンスについて検討した。
以上の結果から,一部のLCMは特定の騒音に対する耐性を示すが,全体的な性能は著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T12:55:08Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning [10.86233584217013]
従来の手法では中間段階の推論エラーに対処できず、累積誤差が発生する。
本稿では,大規模言語モデルのステップワイド・ビームサーチとチェーン・オブ・シント推論をシームレスに統合する,導出ビームサーチ(DBS)を提案する。
提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
論文 参考訳(メタデータ) (2024-01-31T09:16:35Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - Diversity of Thought Improves Reasoning Abilities of LLMs [26.149914503910235]
大規模言語モデル(LLM)は、複雑な推論を必要とする設定で苦労するために文書化されている。
我々は、思考の多様性の手段として、入力プロンプトのバリエーションを作成し、活用する方法について議論する。
論文 参考訳(メタデータ) (2023-10-11T00:01:41Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。